L'argent en tant que scalaire d'évaluation signifie : - Les actions LLM deviennent classables - Les erreurs ont des pénalités mesurables - Les récompenses sont comparables entre les outils
Je pense que l'argent devrait fonctionner comme un signal d'alignement fort pour les tâches agentiques. Non seulement parce qu'il encode des valeurs, mais surtout parce qu'il : - impose la rareté - crée un coût d'opportunité - fournit une unité universelle pour l'évaluation C'est un cadre très différent pour le post-formation par rapport au RLHF traditionnel.
28