一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

新博客文章！这篇文章是一个纯理论的尝试，旨在识别 LLMs 在 RL 中遭遇模式崩溃的根本原因，并未能生成新颖或真正多样的输出。实际上，这个问题比你想象的要复杂得多！单纯通过提高温度、输出熵调节、pass@k 指标等来鼓励探索是不足以避免在 RL 中瓶颈探索的。文章提出了一种新的理论，解释了为什么会出现这种情况以及如何解决它，即通过使用去中心化的强化学习来创建一个“生态系统”的模型，而不仅仅是一个集中式实例。