Geld als een eval-schaal betekent: - LLM-acties worden rangschikbaar - Fouten hebben meetbare straffen - Beloningen zijn vergelijkbaar tussen tools
Mijn gedachte is dat geld zou moeten functioneren als een sterke aligneringssignaal voor agentische taken. Niet alleen omdat het waarden encodeert, maar vooral omdat het: - schaarste afdwingt - opportuniteitskosten creëert - een universele eenheid voor evaluatie biedt Dit is een heel ander kader voor post-training dan traditionele RLHF
50