由于每个人现在都在谈论 RL 环境和 GRPO,但没有人知道它是如何工作的,我们认为制作一个解释视频 + 你可以运行的代码会很酷: 这是一个使用 GRPO 训练 Qwen 2.5 玩 2048 的示例(代码在帖子中)🧵:
45.63K