抱歉,我经常看到这种性质的帖子,所以我需要澄清一下。我们已经知道 LM 是可逆的两年。我在攻读博士学位时就证明了这一点。 引用的论文添加了一些复杂的扩展,但“语言模型反转”(Morris 等人,ICLR 2024)首先做到了:)
Alex Imas
Alex Imas10月29日 10:59
天哪。这篇论文太疯狂了。 你可以通过反演从LLM中恢复输入文本。这对我们理解这些模型以及隐私等问题有着巨大的影响。
- 只需足够的采样时间,您就可以仅从输出中恢复提示 - 如果API允许使用'logit bias'参数,您可以通过二分搜索更快地恢复它们 - 在(Finlayson et al., 2024)中有一个很酷的扩展:您可以恢复*模型本身的最后一层*
语言模型反演
API保护的LLM的Logits泄露专有信息
355