Neues @Scale_AI Papier! Der Übeltäter hinter dem Belohnungshacking? Wir führen es auf eine Fehlklassifizierung im hochbelohnten Bereich zurück. Unsere Lösung: rubrikbasierte Belohnungen, um "exzellente" Antworten von "großartigen" zu unterscheiden. Das Ergebnis: Weniger Hacking, stärkere Nachschulung!