Интересно видеть, как Bytedance работает над решением проблемы 0-градуса. Их идея заключается в том, чтобы решить её с помощью адаптивного бюджета вычислений; мы подходим к этому с точки зрения вознаграждения. Обучение GRPO обычно использует небольшие, тщательно подобранные наборы данных, данные должны быть действительно сложными, чтобы предоставить богатые сигналы для обучения и позволить открытию. Обучение на более простых данных просто уточнит то, что модель уже видела в SFT/предварительном обучении!