El dinero como un escalar de evaluación significa: - Las acciones de LLM se vuelven clasificables - Los errores tienen penalizaciones medibles - Las recompensas son comparables entre herramientas
Mi pensamiento es que el dinero debería funcionar como una señal de alineación fuerte para tareas de agencia. No solo porque codifica valores, sino más bien porque: - impone escasez - crea costo de oportunidad - proporciona una unidad universal para la evaluación Este es un marco muy diferente para el post-entrenamiento que el RLHF tradicional.
32