熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚀 LongCat-Flash-Thinking-2601 技術報告 – 現已全面發布!
主要見解:
🌍 大規模代理強化學習(14 頁深入分析!)
🔹 環境擴展:詳細介紹我們的自動化管道,能在 20 多個領域中構建 10,000 多個可執行、可驗證的環境。
🔹 強化學習基礎設施:升級的 DORA 框架,支持 32,000 多個並發環境的異步訓練,解決長尾和高度異質任務中的穩定性問題。
🛡️ 野外的穩健性
🔹 噪音注入:不再有 "溫室" 代理。我們系統地分析現實世界的噪音(用戶/工具噪音),並將其直接注入訓練循環中。
🔹 課程強化學習:基於課程的策略,逐步增強模型對混亂、不完美環境的抵抗力。
🧠 重思維框架
🔹 並行推理:通過生成多個獨立的推理軌跡來擴展廣度。
🔹 迭代總結:通過使用總結模型反思和綜合並行軌跡來擴展深度,然後做出最終決策。
🔹 上下文記憶:專門設計的記憶模塊,以保持長期推理的一致性。
⚡ 鋸齒注意力
🔹 鋸齒連接設計結合 MLA + SSA,以減少計算,同時保留全局信息流。
🔹 中途訓練切換到稀疏變體,實現 1.5 倍的加速,並支持 1M 令牌上下文——為未來在長上下文代理推理中的突破奠定基礎。
🔹 探索:
📊 在關鍵代理基準中,開源模型中達到 SOTA:搜索、工具使用、數學推理和編碼。
如果您想了解更多詳細信息,隨時查看完整的技術報告。
• 論文:
• 網站:
• GitHub:
• Hugging Face:




熱門
排行
收藏
