¡El informe técnico de Kimi K2.5 acaba de salir! Puntos rápidos: - Entrenamiento conjunto de texto y visión: preentrenado con 15T de tokens de texto y visión, SFT de visión cero (solo texto) para activar el razonamiento visual - Agente Swarm + PARL: subagentes paralelos orquestados dinámicamente, hasta 4.5× menor latencia, 78.4% en BrowseComp - MoonViT-3D: un codificador unificado de imagen y video con compresión temporal de 4×, permitiendo videos 4× más largos en el mismo contexto - Toggle: RL eficiente en tokens, 25–30% menos tokens sin pérdida de precisión Aquí está nuestro trabajo hacia una inteligencia agente escalable y del mundo real. Más detalles en el informe 👉