Meta 剛剛發布了這篇論文,揭示了強化學習 (RL) 在大型語言模型 (LLMs) 上的秘密配方。 它列出了 RL 的配方,使用了 400,000 GPU 小時,並提出了隨著計算能力增加而提升性能的擴展法則,類似於經典的預訓練擴展法則。 對於 AI 發燒友來說,這是必讀的。
來源:
95.07K