我一直很好奇 LLMs 在强化学习(RL)过程中会 "忘记" 什么信息。 最近我花时间研究了一些例子,看看模型在强化学习后变得更糟的情况。 结果发现,学习推理使模型在几乎所有方面都变得更好。 说实话,这真是个可怕的认识。