一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

🚀 LongCat-Flash-Thinking-2601 技术报告 – 现已全面发布！关键见解： 🌍 大规模代理强化学习（14 页深入分析！） 🔹 环境扩展：详细介绍我们自动化管道的构建，能够在 20 多个领域中构建 10,000+ 可执行、可验证的环境。 🔹 强化学习基础设施：升级版 DORA 框架，支持 32,000+ 个并发环境的异步训练，解决长尾和高度异质任务中的稳定性问题。 🛡️ 真实环境中的鲁棒性 🔹 噪声注入：不再有 "温室" 代理。我们系统地分析真实世界的噪声（用户/工具噪声），并将其直接注入训练循环中。 🔹 课程强化学习：基于课程的策略，逐步增强模型对混乱、不完美环境的适应能力。 🧠 深度思考框架 🔹 并行推理：通过生成多个独立的推理轨迹来扩展广度。 🔹 迭代总结：通过使用总结模型反思和综合并行轨迹，扩展深度，然后做出最终决策。 🔹 上下文记忆：专门构建的记忆模块，以保持长时间范围内推理的一致性。 ⚡ 之字形注意力 🔹 结合 MLA + SSA 的之字形连接设计，减少计算同时保持全局信息流。 🔹 中途切换到稀疏变体实现 1.5× 的加速，并支持 1M 令牌上下文——为未来在长上下文代理推理中的突破奠定基础。 🔹 探索： 📊 在关键代理基准测试中，开放源代码模型中实现 SOTA：搜索、工具使用、数学推理和编码。如果您想了解更多细节，请随时查看完整的技术报告。 • 论文： • 网站： • GitHub： • Hugging Face：