🚀 ¡Gran actualización de @grail_ai! ¡Hemos completado nuestra implementación de GRPO! Nuestras primeras ejecuciones en el conjunto de datos GSM8K y el modelo Qwen/Qwen2.5-1.5B-Instruct muestran que se está entrenando correctamente a través de la red principal SN81, con recompensas en línea que mejoran constantemente con el tiempo. 1/3 🧵