🚀 LongCat-Flash-Thinking-2601 技术报告 – 现已全面发布! 关键见解: 🌍 大规模代理强化学习(14 页深入分析!) 🔹 环境扩展:详细介绍我们自动化管道的构建,能够在 20 多个领域中构建 10,000+ 可执行、可验证的环境。 🔹 强化学习基础设施:升级版 DORA 框架,支持 32,000+ 个并发环境的异步训练,解决长尾和高度异质任务中的稳定性问题。 🛡️ 真实环境中的鲁棒性 🔹 噪声注入:不再有 "温室" 代理。我们系统地分析真实世界的噪声(用户/工具噪声),并将其直接注入训练循环中。 🔹 课程强化学习:基于课程的策略,逐步增强模型对混乱、不完美环境的适应能力。 🧠 深度思考框架 🔹 并行推理:通过生成多个独立的推理轨迹来扩展广度。 🔹 迭代总结:通过使用总结模型反思和综合并行轨迹,扩展深度,然后做出最终决策。 🔹 上下文记忆:专门构建的记忆模块,以保持长时间范围内推理的一致性。 ⚡ 之字形注意力 🔹 结合 MLA + SSA 的之字形连接设计,减少计算同时保持全局信息流。 🔹 中途切换到稀疏变体实现 1.5× 的加速,并支持 1M 令牌上下文——为未来在长上下文代理推理中的突破奠定基础。 🔹 探索: 📊 在关键代理基准测试中,开放源代码模型中实现 SOTA:搜索、工具使用、数学推理和编码。 如果您想了解更多细节,请随时查看完整的技术报告。 • 论文: • 网站: • GitHub: • Hugging Face: