有人告诉我我在这里错过了什么,因为这个标题的说法在我看来似乎是显而易见的错误: 他们将 LLM 定义为一个将 V^k 中的序列 s 映射到 R^d 中的向量的函数。 假设隐藏状态为 n 位精度。在某个时刻,可能的输入数量超过了隐藏状态的数量: |V|^k > 2^{n * d} k > n d log(2) / log |V| 让我们以 GPT-2 为例:n=16,d=768,V≈50,000。 那么从 214 个标记的上下文窗口大小开始,碰撞 *必须* 发生。 这似乎实际上有点糟糕,对吧?