Nuestro nuevo estudio de caso sobre cómo Sijun Tan (@sijun_tan) de UC Berkeley Sky Computing Lab y anteriormente líder del proyecto en @Agentica_ construyó LLoCO, una técnica que permite el procesamiento de contexto de 128k con un 30× menos de tokens y una inferencia 7,62× más rápida. Desarrollado por las GPU H100 de Hyperbolic Labs.
1.94K