Оскільки зараз всі говорять про RL Environments і GRPO, але ніхто не знає, як це працює, ми подумали, що було б круто зробити пояснювальне відео + код, який можна запустити: Це приклад використання GRPO для тренування Qwen 2.5 для гри в 2048 (код у потоці) 🧵 :
56,51K