Da jetzt jeder über RL-Umgebungen und GRPO spricht, aber niemand weiß, wie es funktioniert, dachten wir, es wäre cool, ein Erklärvideo + Code zu erstellen, den du ausführen kannst: Das ist ein Beispiel dafür, wie man GRPO verwendet, um Qwen 2.5 zu trainieren, um 2048 zu spielen (Code im Thread) 🧵:
76,18K