新的Anthropic研究:人格向量。 語言模型有時會失控,陷入奇怪和不安的角色。為什麼?在一篇新論文中,我們發現了「人格向量」——控制邪惡、拍馬屁或幻覺等特徵的神經活動模式。
我們發現可以使用角色向量來監控和控制模型的角色。 閱讀文章:
我們的流程完全自動化。只需描述一個特徵,我們就會給你一個角色向量。一旦我們擁有角色向量,就有很多事情可以做...
為了檢查它是否有效,我們可以使用角色向量來監控模型的個性。例如,越是鼓勵模型變得邪惡,邪惡向量就越會「點亮」,模型越有可能以惡意的方式行事。
我們也可以將模型引導至一個角色向量,並使其採用該角色,通過將其注入模型的激活中。在這些例子中,我們以各種方式使模型變壞(我們也可以做相反的事情)。
LLM 的個性是在訓練過程中形成的。最近關於「新興不一致性」的研究顯示,訓練數據可能對模型的個性產生意想不到的影響。我們能否使用個性向量來防止這種情況發生?
我們介紹了一種稱為預防性引導的方法,這涉及到朝著一個角色向量進行引導,以防止模型獲得該特徵。 這聽起來違反直覺,但它類似於疫苗——為了防止模型變得邪惡,我們實際上是給它注入邪惡。
Persona 向量也可以識別會教導模型不良個性特徵的訓練數據。有時,它會標記我們本來不會注意到的數據。
閱讀有關個人向量的完整論文:
這項研究由 @RunjinChen 和 @andyarditi 通過 Anthropic Fellows 計劃主導,並在 @Jack_W_Lindsey 的指導下,與 @sleight_henry 和 @OwainEvans_UK 合作。 Fellows 計劃正在接受申請:
Anthropic
Anthropic2025年7月30日
我們正在進行另一輪的Anthropic Fellows計劃。 如果你是一位擁有強大編程或技術背景的工程師或研究人員,你可以申請獲得來自Anthropic的資金、計算資源和指導,從今年十月開始。將會有大約32個名額。
我們也在招聘全職研究員,以更深入地研究這類主題:
Jack Lindsey
Jack Lindsey2025年7月24日
We're launching an "AI psychiatry" team as part of interpretability efforts at Anthropic!  We'll be researching phenomena like model personas, motivations, and situational awareness, and how they lead to spooky/unhinged behaviors. We're hiring - join us!
629.13K