alguien dígame qué me estoy perdiendo aquí, porque la afirmación titulada me parece trivialmente falsa: definen un LLM como una función que mapea la secuencia s en V^k a un vector en R^d supongamos un estado oculto en precisión de n bits. en algún momento, hay más entradas posibles que estados ocultos: |V|^k > 2^{n * d} k > n d log(2) / log |V| tomemos GPT-2: n=16, d=768, V≈50,000 entonces las colisiones *deben* ocurrir a partir de un tamaño de ventana de contexto de 214 tokens esto parece realmente algo malo, ¿verdad?