przepraszam, ale ciągle widzę posty tego rodzaju, więc muszę to wyjaśnić. Wiemy, że LMs są odwracalne od DWÓCH LAT. Pokazałem to podczas mojej pracy doktorskiej. cytowany artykuł dodaje kilka zaawansowanych rozszerzeń, ale "Inwersja Modelu Językowego" (Morris i in., ICLR 2024) zrobił to jako pierwszy :)
Alex Imas
Alex Imas29 paź, 10:59
Święty s*&t. Ten dokument jest szalony. Możesz odzyskać tekst wejściowy z LLM poprzez inwersję. Ogromne implikacje dla tego, jak rozumiemy te modele, a także dla takich rzeczy jak prywatność.
- możesz odzyskać podpowiedzi tylko z wyników, mając wystarczająco dużo czasu na próbkowanie - możesz je odzyskać szybciej, przeszukując API w sposób binarny, jeśli pozwala na parametr 'logit bias' - jest fajne rozszerzenie w (Finlayson i in., 2024): możesz odzyskać *ostatnią warstwę samego modelu*
Inwersja modelu językowego
Logity API-chronionych LLM-ów wyciekają informacje zastrzeżone
367