新研究:当开源模型在看似无害的由前沿模型生成的化学合成信息上进行微调时,它们在化学武器任务上的表现会大大提升。 我们称之为引导攻击。