來自Anthropic的新對齊研究。 「AI的失敗可能不是因為系統性的不對齊,而是因為不連貫——不可預測、自我削弱的行為,無法優化任何一致的目標。也就是說,AI的失敗可能與人類經常失敗的方式相同,變得一團糟。」