🚀 Большое обновление от @grail_ai! Мы завершили реализацию нашего GRPO! Наши первые запуски на наборе данных GSM8K и модели Qwen/Qwen2.5-1.5B-Instruct показывают, что обучение проходит успешно в основной сети SN81, а онлайн-награды постепенно улучшаются со временем. 1/3 🧵