作为评估标量的货币意味着: - LLM 行动可以被排名 - 错误有可衡量的惩罚 - 奖励在工具之间是可比的
我的想法是,金钱应该作为代理任务的强对齐信号。 不仅因为它编码了价值,更因为它: - 强化稀缺性 - 创造机会成本 - 提供一个通用的评估单位 这与传统的RLHF相比,是一种截然不同的后训练框架。
34