誰かが私がここで何を見逃しているのか教えてください、なぜなら、タイトルの主張は私には些細な誤りのように思えるからです。 彼らはLLMを、V^kのシーケンスsをR^dのベクトルにマッピングする関数として定義しています nビット精度で隠れ状態を想定します。 ある時点で、非表示の状態よりも多くの入力が可能です。 |V|^k > 2^{n * d} k > n d log(2) / log |V| GPT-2 を例にとると、n=16、d=768、V≈50,000 次に、衝突は 214 トークンのコンテキスト ウィンドウ サイズから発生する必要があります これは実際にはちょっと悪いことのように思えますよね?