Kimi K2.5 技术报告刚刚发布! 快速要点: - 联合文本-视觉训练:使用 15T 视觉-文本标记进行预训练,零视觉 SFT(仅文本)以激活视觉推理 - Agent Swarm + PARL:动态协调的并行子代理,延迟降低高达 4.5 倍,BrowseComp 上达到 78.4% - MoonViT-3D:统一的图像-视频编码器,具有 4 倍的时间压缩,使得在相同上下文中能够实现 4 倍更长的视频 - 切换:令牌高效的 RL,令牌减少 25-30% 而不降低准确性 这是我们朝着可扩展的现实世界代理智能所做的努力。报告中有更多细节 👉