热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
新博客文章!这篇文章是一个纯理论的尝试,旨在识别 LLMs 在 RL 中遭遇模式崩溃的根本原因,并未能生成新颖或真正多样的输出。实际上,这个问题比你想象的要复杂得多!
单纯通过提高温度、输出熵调节、pass@k 指标等来鼓励探索是不足以避免在 RL 中瓶颈探索的。
文章提出了一种新的理论,解释了为什么会出现这种情况以及如何解决它,即通过使用去中心化的强化学习来创建一个“生态系统”的模型,而不仅仅是一个集中式实例。

热门
排行
收藏

