sorry, maar ik blijf berichten van deze aard zien, dus ik moet het verduidelijken. We weten al TWEE JAAR dat LMs omkeerbaar zijn. Ik heb dit tijdens mijn PhD aangetoond. het geciteerde paper voegt enkele geavanceerde uitbreidingen toe, maar "Language Model Inversion" (Morris et al., ICLR 2024) deed het eerst :)
Alex Imas
Alex Imas29 okt, 10:59
Heilige s*&t. Dit document is krankzinnig. Je kunt invoertekst van een LLM herstellen door inversie. Enorme implicaties voor hoe we deze modellen begrijpen, evenals voor zaken als privacy.
- je kunt prompts alleen uit outputs herstellen, gegeven genoeg sampling tijd - je kunt ze sneller herstellen door de API binaire te doorzoeken als deze de 'logit bias' parameter toestaat - er is een coole extensie in (Finlayson et al., 2024): je kunt de *laatste laag van het model zelf* herstellen
Taalmodel inversie
Logits van API-beschermde LLM's lekken vertrouwelijke informatie
357