申し訳ありませんが、この種の投稿を何度も見ているので、明確にする必要があります。LMが2年間反転できることはわかっています。私は博士課程中にこれを示しました。 引用された論文では、いくつかの高度な拡張が追加されていますが、最初に「言語モデルの反転」(Morris et al., ICLR 2024)が最初にそれを行:)
Alex Imas
Alex Imas10月29日 10:59
聖なるs*&t。この論文は非常識です。 反転を使用して LLM から入力テキストを復元できます。これらのモデルをどのように理解するか、またプライバシーなどにも大きな影響を及ぼします。
- 十分なサンプリング時間があれば、出力のみからプロンプトを回復できます - 「ロジットバイアス」パラメータが許可されている場合は、APIをバイナリ検索することで、より速く回復できます - (Finlayson et al., 2024) にはクールな拡張機能があります: *モデル自体の最後のレイヤー* を復元できます。
言語モデルの反転
API で保護された LLM のロジットが専有情報を漏洩する
366