Der Kimi K2.5-Technikbericht ist gerade erschienen! Kurze Zusammenfassung: - Gemeinsames Text- und Bildtraining: vortrainiert mit 15T Bild-Text-Tokens, Zero-Vision SFT (nur Text), um visuelles Denken zu aktivieren - Agenten-Schwarm + PARL: dynamisch orchestrierte parallele Unteragenten, bis zu 4,5× geringere Latenz, 78,4% bei BrowseComp - MoonViT-3D: ein einheitlicher Bild-Video-Encoder mit 4× zeitlicher Kompression, der 4× längere Videos im gleichen Kontext ermöglicht - Toggle: token-effizientes RL, 25–30% weniger Tokens ohne Genauigkeitsverlust Hier ist unsere Arbeit in Richtung skalierbarer, realer agentischer Intelligenz. Weitere Details im Bericht 👉