Siden alle snakker om RL Environments og GRPO nå, men ingen vet hvordan det fungerer, tenkte vi at det ville være kult å lage en forklaringsvideo + kode du kan kjøre: Dette er et eksempel på bruk av GRPO for å trene Qwen 2.5 til å spille 2048 (kode i tråden): 🧵
34,41K