“基于输出的训练将保持思维链的诚实。” 可惜,不是的。我们展示了仅仅在*输出上*进行训练仍然可能导致模型在其思维链中隐藏不希望的行为。MATS 8.0 团队 Shard 呈现:一条 🧵