跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-5.99%
USELESS
-9.64%
IKUN
+4.04%
gib
-2.98%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-3.19%
ALON
-8.42%
LAUNCHCOIN
-25.54%
GOONC
+6.87%
KLED
-5.22%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.11%
Boopa
-11.79%
PORK
+7.23%
主頁
Nouha Dziri
Nouha Dziri
2025年10月7日
你好,蒙特利爾🇨🇦🍁🍁 很高興再次來到這裡。我將在 #COLM2025 待到星期五,如果你想聊天,隨時聯繫我!
4.04K
35
Nouha Dziri
2025年10月3日
看到字節跳動致力於解決0梯度問題真是有趣。他們的想法是通過自適應計算預算來解決這個問題;我們則從獎勵的角度來看待它。GRPO訓練通常使用小型、精心策劃的數據集,數據需要非常困難,以提供豐富的學習信號並促進發現。使用較簡單的數據進行訓練只會加強模型在SFT/預訓練中已經看到的內容!
Ziniu Li
2025年10月2日
🚀 很高興能分享我們在 Bytedance Seed 的工作! Knapsack RL:通過預算分配解鎖 LLM 的探索 🎒 在 LLM 訓練中的探索至關重要,但成本高昂。 均勻的推出分配是浪費: ✅ 簡單任務 → 總是解決 → 0 梯度 ❌ 難任務 → 總是失敗 → 0 梯度 💡 我們的想法:將探索視為一個背包問題 → 在最重要的地方分配推出。 ✨ 結果: 🔼 +20–40% 更多非零梯度 🧮 對於難任務最多可達 93 次推出(無需額外計算) 📈 整體平均提高 2–4 分,數學基準測試峰值增益 +9 💰 比均勻分配便宜約 2 倍 📄 論文:
53.66K
578
Nouha Dziri
2025年10月2日
🚀你是否曾想過如何讓RL在不可能的困難任務上運作,其中pass@k = 0%?🤔 在我們的新研究中,我們分享了RL Grokking食譜:一個訓練食譜,使LLM能夠解決以前無法解決的編碼問題!我下週將參加#CoLM2025,期待與大家聊聊! 我們還深入探討了激烈的辯論:RL只是加強以前學到的技能,還是能夠解鎖真正新的推理能力?🔥🔥 在這裡閱讀完整的博客: #AI #RL #NLP #reinforcementlearning #llm
81.09K
1.04K
熱門
排行
收藏