跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-10.14%
USELESS
-3.53%
IKUN
+8.73%
gib
-5.01%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-1.76%
ALON
+9.18%
LAUNCHCOIN
-10.65%
GOONC
-4.2%
KLED
+24.64%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.82%
Boopa
+10.22%
PORK
-1.35%
主页
Nouha Dziri
Nouha Dziri
10月7日 21:47
你好,蒙特利尔🇨🇦🍁🍁 很高兴再次来到这里。我会在#COLM2025呆到星期五,如果你想聊天,请联系我!
4.01K
35
Nouha Dziri
10月3日 01:09
看到字节跳动致力于解决0梯度问题真是有趣。他们的想法是通过自适应计算预算来解决这个问题;而我们则从奖励的角度来处理。GRPO训练通常使用小而精心策划的数据集,这些数据需要非常困难,以提供丰富的学习信号并促进发现。在更简单的数据上训练只会加深模型在SFT/预训练中已经看到的内容!
Ziniu Li
10月2日 13:51
🚀 很高兴分享我们在字节跳动种子项目的工作! Knapsack RL:通过预算分配解锁 LLM 的探索 🎒 在 LLM 训练中,探索至关重要但成本高昂。 均匀的投放分配是浪费: ✅ 简单任务 → 总是解决 → 0 梯度 ❌ 难任务 → 总是失败 → 0 梯度 💡 我们的想法:将探索视为一个背包问题 → 在最重要的地方分配投放。 ✨ 结果: 🔼 +20–40% 更多非零梯度 🧮 对于难任务最多可进行 93 次投放(无需额外计算) 📈 数学基准测试平均提高 2–4 分,峰值提升 9 分 💰 比均匀分配便宜约 2 倍 📄 论文:
53.63K
578
Nouha Dziri
10月2日 02:38
🚀你是否曾想过如何在 pass@k = 0% 的不可能困难任务上让 RL 发挥作用?🤔 在我们的新工作中,我们分享了 RL Grokking Recipe:一种训练配方,使 LLM 能够解决以前无法解决的编码问题!我下周将在 #CoLM2025 参加会议,很高兴能和大家聊聊! 我们还深入探讨了一个激烈的辩论:RL 只是提升之前学到的技能,还是能够解锁真正新的推理能力?🔥🔥 在这里阅读完整博客: #AI #RL #NLP #reinforcementlearning #llm
81.05K
1.04K
热门
排行
收藏