Que alguien me diga lo que me estoy perdiendo aquí, porque la afirmación titulada me parece trivialmente falsa: definen un LLM como una función que asigna la secuencia s en V ^ k al vector en R ^ d Supongamos un estado oculto con una precisión de n bits. En algún momento, hay más entradas posibles que estados ocultos: |V|^k > 2^{n * d} k > n d log(2) / log |V| tomemos GPT-2: n = 16, d = 768, V ≈ 50,000 entonces las colisiones *deben* ocurrir a partir de un tamaño de ventana de contexto de 214 tokens Esto parece realmente un poco malo, ¿verdad?