Anthropic的新对齐研究。 “AI可能不是通过系统性的不对齐而失败,而是通过不连贯性——不可预测的、自我削弱的行为,这种行为并没有针对任何一致的目标进行优化。也就是说,AI可能以人类常常失败的方式失败,变得一团糟。”