Новая статья от @Scale_AI! Кто виноват в манипуляциях с вознаграждениями? Мы связываем это с неправильной спецификацией в области высоких вознаграждений. Наше решение: вознаграждения на основе рубрики, чтобы отличать "отличные" ответы от "хороших". Результат: меньше манипуляций, более сильное постобучение!