Îmi pare rău, dar tot văd postări de această natură, așa că trebuie să clarific. știm că LM-urile sunt inversabile de DOI ANI. am arătat acest lucru în timpul doctoratului. lucrarea citată adaugă câteva extensii sofisticate, dar "Language Model Inversion" (Morris et al., ICLR 2024) a făcut-o mai întâi:)
Alex Imas
Alex Imas29 oct. 2025
Sfinte s*&t. Această lucrare este o nebunie. Puteți recupera textul de intrare dintr-un LLM prin inversare. Implicații uriașe pentru modul în care înțelegem aceste modele, precum și pentru lucruri precum confidențialitatea.
- puteți recupera solicitările doar din ieșiri, având suficient timp de eșantionare - le puteți recupera mai repede prin căutarea binară a API-ului dacă permite parametrul "logit bias" - există o extensie interesantă în (Finlayson et al., 2024): puteți recupera *ultimul strat al modelului în sine*
Inversarea modelului lingvistic
Jurnalele LLM-urilor protejate prin API scurg informații proprietare
377