跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+12.09%
USELESS
-5.22%
IKUN
-3.38%
gib
+9.43%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.01%
ALON
-1.64%
LAUNCHCOIN
-8.09%
GOONC
-3.57%
KLED
+1.03%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.08%
Boopa
-0.86%
PORK
+0.15%
主页
Vincent Weisser
@primeintellect CEO / 开放超级智能和基础设施 / 自动化人工智能和科学
查看原文
Vincent Weisser
3 小时前
在强化学习中,模式崩溃可能源于集中训练限制了探索。 而真正的多样性往往在分布式和开源的人工智能中自然出现,在这些情况下,模型半独立地演变并偶尔同步。 感谢 @samsja19 分享这篇文章。
ueaj
10月27日 02:56
新博客文章!这篇文章是一个纯理论的尝试,旨在识别 LLMs 在 RL 中遭遇模式崩溃的根本原因,并未能生成新颖或真正多样的输出。实际上,这个问题比你想象的要复杂得多! 单纯通过提高温度、输出熵调节、pass@k 指标等来鼓励探索是不足以避免在 RL 中瓶颈探索的。 文章提出了一种新的理论,解释了为什么会出现这种情况以及如何解决它,即通过使用去中心化的强化学习来创建一个“生态系统”的模型,而不仅仅是一个集中式实例。
6.48K
58
热门
排行
收藏