Новий @Scale_AI папір! Хто винен у хакерстві з метою отримання винагороди? Ми простежуємо це до неправильної специфікації в хвості з високою винагородою. Наше виправлення: винагороди на основі рубрик, щоб відрізняти «відмінні» відповіді від «чудові». Результат: Менше хакерства, сильніший посттренінг!