Dinero como escalar de evaluación significa: - Las acciones LLM se vuelven clasificables - Los errores tienen penalizaciones medibles - Las recompensas son proporcionales entre herramientas
Mi opinión es que el dinero debería funcionar como una señal fuerte de alineación para tareas agentes. No solo porque codifica valores, sino más bien porque: - Hacer cumplir la escasez - crea coste de oportunidad - proporciona una unidad universal para la evaluación Este es un marco muy diferente para la post-formación que el RLHF tradicional
32