🚀 Grande atualização da @grail_ai! Completámos a nossa implementação do GRPO! As nossas primeiras execuções no conjunto de dados GSM8K e no modelo Qwen/Qwen2.5-1.5B-Instruct mostram que está a treinar corretamente na rede principal SN81, com recompensas online a melhorar constantemente ao longo do tempo. 1/3 🧵