Puisque tout le monde parle maintenant des environnements RL et de GRPO, mais que personne ne sait comment cela fonctionne, nous avons pensé qu'il serait intéressant de réaliser une vidéo explicative + un code que vous pouvez exécuter : Voici un exemple d'utilisation de GRPO pour entraîner Qwen 2.5 à jouer à 2048 (code dans le fil) 🧵:
112,33K