Maaf, tapi saya terus melihat postingan seperti ini jadi saya perlu mengklarifikasi. kami telah tahu LM dapat dibalik selama DUA TAHUN. saya menunjukkan ini selama PhD saya. makalah yang dikutip menambahkan beberapa ekstensi canggih, tetapi "Inversi Model Bahasa" (Morris et al., ICLR 2024) melakukannya terlebih dahulu :)
Alex Imas
Alex Imas29 Okt, 10.59
Suci s*&t. Makalah ini gila. Anda dapat memulihkan teks input dari LLM melalui inversi. Implikasi besar untuk bagaimana kita memahami model-model ini, serta untuk hal-hal seperti privasi.
- Anda dapat memulihkan perintah dari output saja, dengan waktu pengambilan sampel yang cukup - Anda dapat memulihkannya lebih cepat dengan mencari biner API jika memungkinkan parameter 'logit bias' - ada ekstensi keren di (Finlayson et al., 2024): Anda dapat memulihkan *lapisan terakhir dari model itu sendiri*
Inversi Model Bahasa
Log LLM yang Dilindungi API Membocorkan Informasi Kepemilikan
372