新博客文章!这篇文章是一个纯理论的尝试,旨在识别 LLMs 在 RL 中遭遇模式崩溃的根本原因,并未能生成新颖或真正多样的输出。实际上,这个问题比你想象的要复杂得多! 单纯通过提高温度、输出熵调节、pass@k 指标等来鼓励探索是不足以避免在 RL 中瓶颈探索的。 文章提出了一种新的理论,解释了为什么会出现这种情况以及如何解决它,即通过使用去中心化的强化学习来创建一个“生态系统”的模型,而不仅仅是一个集中式实例。