由於每個人現在都在談論 RL 環境和 GRPO,但沒有人知道它是如何工作的,我們認為製作一個解釋視頻 + 你可以運行的代碼會很酷: 這是一個使用 GRPO 訓練 Qwen 2.5 玩 2048 的示例(代碼在帖子中)🧵:
45.63K