Studi kasus baru kami tentang bagaimana Sijun Tan (@sijun_tan) dari UC Berkeley Sky Computing Lab dan sebelumnya pemimpin proyek di @Agentica_ membangun LLoCO - sebuah teknik yang memungkinkan pemrosesan konteks 128k dengan 30× token lebih sedikit dan inferensi 7,62× lebih cepat. Didukung oleh GPU H100 Hyperbolic Labs.
1,94K