Naše nová případová studie o tom, jak Sijun Tan (@sijun_tan) z UC Berkeley Sky Computing Lab, který dříve vedl projektu ve společnosti @Agentica_, vytvořil LLoCO – techniku, která umožňuje zpracování 128 tisíc kontextů s 30× méně tokeny a 7,62× rychlejší inferencí. Poháněno grafickými procesory Hyperbolic Labs H100.
1,93K