🚀 Grande mise à jour de @grail_ai ! Nous avons terminé notre mise en œuvre de GRPO ! Nos premières exécutions sur le jeu de données GSM8K et le modèle Qwen/Qwen2.5-1.5B-Instruct montrent qu'il s'entraîne correctement sur le réseau principal SN81, avec des récompenses en ligne s'améliorant régulièrement au fil du temps. 1/3 🧵