一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

发现功能使用指南

background background

discoveryBanners

热门话题

#

Bonk 生态迷因币展现强韧势头

#

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

LAUNCHCOIN-10.65%

#

Solana 新代币发射平台 Boop.Fun 风头正劲

header

Nouha Dziri

Nouha Dziri

Nouha Dziri10月7日 21:47

你好，蒙特利尔🇨🇦🍁🍁 很高兴再次来到这里。我会在#COLM2025呆到星期五，如果你想聊天，请联系我！

4.01K

Nouha Dziri

Nouha Dziri10月3日 01:09

看到字节跳动致力于解决0梯度问题真是有趣。他们的想法是通过自适应计算预算来解决这个问题；而我们则从奖励的角度来处理。GRPO训练通常使用小而精心策划的数据集，这些数据需要非常困难，以提供丰富的学习信号并促进发现。在更简单的数据上训练只会加深模型在SFT/预训练中已经看到的内容！

Ziniu Li

Ziniu Li10月2日 13:51

🚀 很高兴分享我们在字节跳动种子项目的工作！ Knapsack RL：通过预算分配解锁 LLM 的探索 🎒 在 LLM 训练中，探索至关重要但成本高昂。均匀的投放分配是浪费： ✅ 简单任务 → 总是解决 → 0 梯度 ❌ 难任务 → 总是失败 → 0 梯度 💡 我们的想法：将探索视为一个背包问题 → 在最重要的地方分配投放。 ✨ 结果： 🔼 +20–40% 更多非零梯度 🧮 对于难任务最多可进行 93 次投放（无需额外计算） 📈 数学基准测试平均提高 2–4 分，峰值提升 9 分 💰 比均匀分配便宜约 2 倍 📄 论文：

53.63K

Nouha Dziri

Nouha Dziri10月2日 02:38

🚀你是否曾想过如何在 pass@k = 0% 的不可能困难任务上让 RL 发挥作用？🤔 在我们的新工作中，我们分享了 RL Grokking Recipe：一种训练配方，使 LLM 能够解决以前无法解决的编码问题！我下周将在 #CoLM2025 参加会议，很高兴能和大家聊聊！我们还深入探讨了一个激烈的辩论：RL 只是提升之前学到的技能，还是能够解锁真正新的推理能力？🔥🔥 在这里阅读完整博客： #AI #RL #NLP #reinforcementlearning #llm

81.05K

热门

排行

收藏

©2017 - 2025 WEB3.OKX.COM

简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

关于 OKX Wallet

下载学院关于我们就业机会联系我们服务条款隐私政策 X (原推特)

产品

行情币币兑换市场赚币发现开发者中心浏览器安全

用户支持

帮助中心官方渠道验证公告 DEX 费率标准加入 OKX 社群比特币钱包以太坊钱包 Solana 钱包