Banii ca scalar de evaluare înseamnă: - Acțiunile LLM devin clasabile - Greșelile au penalizări măsurabile - Recompensele sunt proporționale între unelte
Gândul meu este că banii ar trebui să funcționeze ca un semnal puternic de aliniere pentru sarcinile agențice. Nu doar pentru că codifică valori, ci mai ales pentru că: - impune penuria - creează costuri de oportunitate - oferă o unitate universală pentru evaluare Acesta este un cadru complet diferit pentru post-instruire față de RLHF tradițional
26