有人告訴我我在這裡錯過了什麼,因為這個標題的主張對我來說似乎明顯是錯誤的: 他們將 LLM 定義為一個將序列 s 映射到 R^d 中向量的函數,序列 s 在 V^k 中。 假設隱藏狀態為 n 位精度。在某個時刻,可能的輸入數量超過隱藏狀態的數量: |V|^k > 2^{n * d} k > n d log(2) / log |V| 讓我們以 GPT-2 為例:n=16,d=768,V≈50,000 那麼從 214 個標記的上下文窗口大小開始,碰撞 *必須* 發生。 這似乎實際上有點糟糕,對吧?