カリフォルニア大学バークレー校スカイコンピューティングラボのSijun Tang氏(@sijun_tan)と以前@Agentica_氏が、トークン数を30×減し、推論を7.62×高速化して128kのコンテキスト処理を可能にする技術であるLLoCOをどのように構築したかについての新しいケーススタディです。Hyperbolic Labs の H100 GPU を搭載。
1.18K