我一直很好奇 LLMs 在強化學習 (RL) 過程中會 "忘記" 什麼資訊。 最近我花時間查閱研究,尋找模型在強化學習後變得更差的例子。 結果發現,學會推理使模型在幾乎所有方面都變得更好。 說實話,這是一個可怕的認知。