🚀 LongCat-Flash-Thinking-2601 技術報告 – 現已全面發布! 主要見解: 🌍 大規模代理強化學習(14 頁深入分析!) 🔹 環境擴展:詳細介紹我們的自動化管道,能在 20 多個領域中構建 10,000 多個可執行、可驗證的環境。 🔹 強化學習基礎設施:升級的 DORA 框架,支持 32,000 多個並發環境的異步訓練,解決長尾和高度異質任務中的穩定性問題。 🛡️ 野外的穩健性 🔹 噪音注入:不再有 "溫室" 代理。我們系統地分析現實世界的噪音(用戶/工具噪音),並將其直接注入訓練循環中。 🔹 課程強化學習:基於課程的策略,逐步增強模型對混亂、不完美環境的抵抗力。 🧠 重思維框架 🔹 並行推理:通過生成多個獨立的推理軌跡來擴展廣度。 🔹 迭代總結:通過使用總結模型反思和綜合並行軌跡來擴展深度,然後做出最終決策。 🔹 上下文記憶:專門設計的記憶模塊,以保持長期推理的一致性。 ⚡ 鋸齒注意力 🔹 鋸齒連接設計結合 MLA + SSA,以減少計算,同時保留全局信息流。 🔹 中途訓練切換到稀疏變體,實現 1.5 倍的加速,並支持 1M 令牌上下文——為未來在長上下文代理推理中的突破奠定基礎。 🔹 探索: 📊 在關鍵代理基準中,開源模型中達到 SOTA:搜索、工具使用、數學推理和編碼。 如果您想了解更多詳細信息,隨時查看完整的技術報告。 • 論文: • 網站: • GitHub: • Hugging Face: