Notre nouvelle étude de cas sur la façon dont Sijun Tan (@sijun_tan) du Sky Computing Lab de UC Berkeley, et ancien chef de projet chez @Agentica_, a construit LLoCO - une technique qui permet un traitement de contexte de 128k avec 30 fois moins de tokens et une inférence 7,62 fois plus rapide. Propulsé par les GPU H100 de Hyperbolic Labs.
1,94K