Karena semua orang berbicara tentang RL Environments dan GRPO sekarang tetapi tidak ada yang tahu cara kerjanya, kami pikir akan keren untuk membuat video penjelasan + kode yang dapat Anda jalankan: Ini adalah contoh penggunaan GRPO untuk melatih Qwen 2.5 untuk memainkan 2048 (kode dalam utas): 🧵
45,63K