一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我一直很好奇 LLMs 在強化學習 (RL) 過程中會 "忘記" 什麼資訊。最近我花時間查閱研究，尋找模型在強化學習後變得更差的例子。結果發現，學會推理使模型在幾乎所有方面都變得更好。說實話，這是一個可怕的認知。