新的 @Scale_AI 论文! 奖励黑客行为的罪魁祸首?我们追溯到高奖励尾部的错误规范。 我们的解决方案:基于评分标准的奖励,以区分“优秀”的回应和“出色”的回应。 结果:减少黑客行为,增强后训练效果!