Nieuwe @Scale_AI paper! De schuldige achter reward hacking? We traceren het naar een verkeerde specificatie in de hoge-reward staart. Onze oplossing: rubric-gebaseerde beloningen om "uitstekende" reacties te onderscheiden van "geweldige." Het resultaat: Minder hacking, sterkere post-training!