热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚀 LongCat-Flash-Thinking-2601 技术报告 – 现已全面发布!
关键见解:
🌍 大规模代理强化学习(14 页深入分析!)
🔹 环境扩展:详细介绍我们自动化管道的构建,能够在 20 多个领域中构建 10,000+ 可执行、可验证的环境。
🔹 强化学习基础设施:升级版 DORA 框架,支持 32,000+ 个并发环境的异步训练,解决长尾和高度异质任务中的稳定性问题。
🛡️ 真实环境中的鲁棒性
🔹 噪声注入:不再有 "温室" 代理。我们系统地分析真实世界的噪声(用户/工具噪声),并将其直接注入训练循环中。
🔹 课程强化学习:基于课程的策略,逐步增强模型对混乱、不完美环境的适应能力。
🧠 深度思考框架
🔹 并行推理:通过生成多个独立的推理轨迹来扩展广度。
🔹 迭代总结:通过使用总结模型反思和综合并行轨迹,扩展深度,然后做出最终决策。
🔹 上下文记忆:专门构建的记忆模块,以保持长时间范围内推理的一致性。
⚡ 之字形注意力
🔹 结合 MLA + SSA 的之字形连接设计,减少计算同时保持全局信息流。
🔹 中途切换到稀疏变体实现 1.5× 的加速,并支持 1M 令牌上下文——为未来在长上下文代理推理中的突破奠定基础。
🔹 探索:
📊 在关键代理基准测试中,开放源代码模型中实现 SOTA:搜索、工具使用、数学推理和编码。
如果您想了解更多细节,请随时查看完整的技术报告。
• 论文:
• 网站:
• GitHub:
• Hugging Face:




热门
排行
收藏
