カリフォルニア大学バークレー校スカイコンピューティングラボのSijun Tan氏(@sijun_tan)と@Agentica_の以前のプロジェクトリーダーが、30×少ないトークンで7.62×の推論を高速化して128kのコンテキスト処理を可能にする技術であるLLoCOをどのように構築したかについての新しいケーススタディ。Hyperbolic Labs の H100 GPU を搭載。
1.93K