Nouveau papier de @Scale_AI ! Le coupable derrière le hacking des récompenses ? Nous le traçons à une mauvaise spécification dans la queue à haute récompense. Notre solution : des récompenses basées sur un barème pour distinguer les réponses "excellentes" des réponses "très bonnes". Le résultat : moins de hacking, un post-entraînement plus solide !