Dinheiro como escalar de avaliação significa: - Ações LLM tornam-se classificadas - Erros têm penalidades mensuráveis - As recompensas são proporcionais entre as ferramentas
Minha opinião é que o dinheiro deve funcionar como um forte sinal de alinhamento para tarefas agenticas. Não apenas porque codifica valores, mas mais porque ele: - impõe a escassez - cria custo de oportunidade - fornece uma unidade universal para avaliação Esse é um framework bem diferente para pós-treinamento do RLHF tradicional
30