alguém me diga o que estou a perder aqui, porque a alegação titulada parece trivialmente falsa para mim: eles definem um LLM como uma função que mapeia a sequência s em V^k para um vetor em R^d assumindo um estado oculto em precisão de n bits. em algum momento, há mais entradas possíveis do que estados ocultos: |V|^k > 2^{n * d} k > n d log(2) / log |V| vamos pegar o GPT-2: n=16, d=768, V≈50.000 então colisões *devem* acontecer a partir de um tamanho de janela de contexto de 214 tokens isso parece realmente meio ruim, certo?