Nuovo documento di @Scale_AI! Il colpevole dietro il reward hacking? Lo ricondurremo a una specificazione errata nella coda ad alto rendimento. La nostra soluzione: premi basati su rubriche per distinguere le risposte "eccellenti" da quelle "ottime." Il risultato: meno hacking, post-training più robusto!