Unsere neue Fallstudie darüber, wie Sijun Tan (@sijun_tan) vom UC Berkeley Sky Computing Lab und zuvor Projektleiter bei @Agentica_ LLoCO entwickelt haben - eine Technik, die die Verarbeitung von 128k Kontext mit 30× weniger Tokens und 7,62× schnelleren Inferenz ermöglicht. Angetrieben von den H100 GPUs von Hyperbolic Labs.
1,94K