新研究:當開源模型在看似無害的前沿模型生成的化學合成信息上進行微調時,它們在化學武器任務上的表現會變得更好。 我們稱這為引出攻擊。