Il report tecnico Kimi K2.5 è appena uscito! Punti salienti: - Addestramento congiunto testo-visione: pre-addestrato con 15T token visione-testo, SFT zero-visione (solo testo) per attivare il ragionamento visivo - Agente Swarm + PARL: sub-agenti paralleli orchestrati dinamicamente, fino a 4.5× minore latenza, 78.4% su BrowseComp - MoonViT-3D: un codificatore immagine-video unificato con compressione temporale 4×, che consente video 4× più lunghi nello stesso contesto - Toggle: RL efficiente in termini di token, 25–30% in meno di token senza perdita di precisione Ecco il nostro lavoro verso un'intelligenza agentica scalabile e reale. Maggiori dettagli nel report 👉