Onze nieuwe casestudy over hoe Sijun Tan (@sijun_tan) van het UC Berkeley Sky Computing Lab, en eerder projectleider bij @Agentica_, LLoCO heeft gebouwd - een techniek die 128k contextverwerking mogelijk maakt met 30× minder tokens en 7,62× snellere inferentie. Aangedreven door de H100 GPU's van Hyperbolic Labs.
1,95K