Alguém me diga o que estou perdendo aqui, porque a afirmação intitulada parece trivialmente falsa para mim: eles definem um LLM como uma função que mapeia a sequência s em V^k para vetor em R^d Suponha o estado oculto com precisão de n bits. Em algum momento, há mais entradas possíveis do que estados ocultos: |V|^k > 2^{n * d} k > n d log(2) / log |V| vamos pegar o GPT-2: n=16, d=768, V≈50.000 então as colisões *devem* acontecer a partir de um tamanho de janela de contexto de 214 tokens Isso parece realmente meio ruim, certo?