一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

發現功能使用指南

discoveryBanners

熱門話題

#

Bonk 生態迷因幣展現強韌勢頭

#

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

LAUNCHCOIN-25.54%

#

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

header

Nouha Dziri

Nouha Dziri

Nouha Dziri2025年10月7日

你好，蒙特利爾🇨🇦🍁🍁 很高興再次來到這裡。我將在 #COLM2025 待到星期五，如果你想聊天，隨時聯繫我！

4.04K

Nouha Dziri

Nouha Dziri2025年10月3日

看到字節跳動致力於解決0梯度問題真是有趣。他們的想法是通過自適應計算預算來解決這個問題；我們則從獎勵的角度來看待它。GRPO訓練通常使用小型、精心策劃的數據集，數據需要非常困難，以提供豐富的學習信號並促進發現。使用較簡單的數據進行訓練只會加強模型在SFT/預訓練中已經看到的內容！

Ziniu Li

Ziniu Li2025年10月2日

🚀 很高興能分享我們在 Bytedance Seed 的工作！ Knapsack RL：通過預算分配解鎖 LLM 的探索 🎒 在 LLM 訓練中的探索至關重要，但成本高昂。均勻的推出分配是浪費： ✅ 簡單任務 → 總是解決 → 0 梯度 ❌ 難任務 → 總是失敗 → 0 梯度 💡 我們的想法：將探索視為一個背包問題 → 在最重要的地方分配推出。 ✨ 結果： 🔼 +20–40% 更多非零梯度 🧮 對於難任務最多可達 93 次推出（無需額外計算） 📈 整體平均提高 2–4 分，數學基準測試峰值增益 +9 💰 比均勻分配便宜約 2 倍 📄 論文：

53.66K

Nouha Dziri

Nouha Dziri2025年10月2日

🚀你是否曾想過如何讓RL在不可能的困難任務上運作，其中pass@k = 0%？🤔 在我們的新研究中，我們分享了RL Grokking食譜：一個訓練食譜，使LLM能夠解決以前無法解決的編碼問題！我下週將參加#CoLM2025，期待與大家聊聊！我們還深入探討了激烈的辯論：RL只是加強以前學到的技能，還是能夠解鎖真正新的推理能力？🔥🔥 在這裡閱讀完整的博客： #AI #RL #NLP #reinforcementlearning #llm

81.09K

熱門

排行

收藏

©2017 - 2025 WEB3.OKX.COM

繁體中文简体中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

關於 OKX Wallet

下載學院關於我們就業機會聯繫我們服務條款隱私政策 X (原推特)

產品

行情幣幣兌換市場賺幣發現開發者中心瀏覽器安全

用戶支持

幫助中心官方渠道驗證公告 DEX 費率標準加入社群比特幣錢包以太坊錢包 Solana 錢包