一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我一直很好奇 LLMs 在强化学习（RL）过程中会 "忘记" 什么信息。最近我花时间研究了一些例子，看看模型在强化学习后变得更糟的情况。结果发现，学习推理使模型在几乎所有方面都变得更好。说实话，这真是个可怕的认识。