一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

🚀 LongCat-Flash-Thinking-2601 技術報告 – 現已全面發布！主要見解： 🌍 大規模代理強化學習（14 頁深入分析！） 🔹 環境擴展：詳細介紹我們的自動化管道，能在 20 多個領域中構建 10,000 多個可執行、可驗證的環境。 🔹 強化學習基礎設施：升級的 DORA 框架，支持 32,000 多個並發環境的異步訓練，解決長尾和高度異質任務中的穩定性問題。 🛡️ 野外的穩健性 🔹 噪音注入：不再有 "溫室" 代理。我們系統地分析現實世界的噪音（用戶/工具噪音），並將其直接注入訓練循環中。 🔹 課程強化學習：基於課程的策略，逐步增強模型對混亂、不完美環境的抵抗力。 🧠 重思維框架 🔹 並行推理：通過生成多個獨立的推理軌跡來擴展廣度。 🔹 迭代總結：通過使用總結模型反思和綜合並行軌跡來擴展深度，然後做出最終決策。 🔹 上下文記憶：專門設計的記憶模塊，以保持長期推理的一致性。 ⚡ 鋸齒注意力 🔹 鋸齒連接設計結合 MLA + SSA，以減少計算，同時保留全局信息流。 🔹 中途訓練切換到稀疏變體，實現 1.5 倍的加速，並支持 1M 令牌上下文——為未來在長上下文代理推理中的突破奠定基礎。 🔹 探索： 📊 在關鍵代理基準中，開源模型中達到 SOTA：搜索、工具使用、數學推理和編碼。如果您想了解更多詳細信息，隨時查看完整的技術報告。 • 論文： • 網站： • GitHub： • Hugging Face：