Nový @Scale_AI papír! Viník za odměnovým hackingem? Sledujeme to k chybné specifikaci u ocasu s vysokou odměnou. Naše oprava: odměny založené na rubrikách, které odliší "vynikající" odpovědi od "skvělých". Výsledek: Méně hackování, silnější po tréninku!