分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

誰かが私がここで何を見逃しているのか教えてください、なぜなら、タイトルの主張は私には些細な誤りのように思えるからです。彼らはLLMを、V^kのシーケンスsをR^dのベクトルにマッピングする関数として定義しています nビット精度で隠れ状態を想定します。ある時点で、非表示の状態よりも多くの入力が可能です。 |V|^k > 2^{n * d} k > n d log(2) / log |V| GPT-2 を例にとると、n=16、d=768、V≈50,000 次に、衝突は 214 トークンのコンテキストウィンドウサイズから発生する必要がありますこれは実際にはちょっと悪いことのように思えますよね?

トップ

ランキング

お気に入り