Entschuldigung, aber ich sehe ständig Beiträge dieser Art, also muss ich klarstellen. Wir wissen seit ZWEI JAHREN, dass LMs umkehrbar sind. Ich habe das während meiner Promotion gezeigt. Das zitierte Papier fügt einige ausgeklügelte Erweiterungen hinzu, aber "Language Model Inversion" (Morris et al., ICLR 2024) hat es zuerst gemacht :)
Alex Imas
Alex Imas29. Okt., 10:59
Heilige Scheiße. Dieses Papier ist verrückt. Man kann den Eingabetext von einem LLM durch Inversion wiederherstellen. Riesige Auswirkungen darauf, wie wir diese Modelle verstehen, sowie auf Dinge wie Privatsphäre.
- Sie können Aufforderungen nur aus Ausgaben wiederherstellen, wenn genügend Zeit für das Sampling vorhanden ist. - Sie können sie schneller wiederherstellen, indem Sie die API mit einer binären Suche durchsuchen, wenn sie den Parameter 'logit bias' zulässt. - Es gibt eine coole Erweiterung in (Finlayson et al., 2024): Sie können die *letzte Schicht des Modells selbst* wiederherstellen.
Modellinversion der Sprache
Logits von API-geschützten LLMs leaken proprietäre Informationen
356