Il nostro nuovo caso studio su come il laboratorio di Sky Computing dell'UC Berkeley, Sijun Tang (@sijun_tan) e precedentemente presso @Agentica_, ha costruito LLoCO - una tecnica che consente l'elaborazione di contesti da 128k con 30 volte meno token e un'inferenza 7,62 volte più veloce. Alimentato dalle GPU H100 di Hyperbolic Labs.
1,18K