quelqu'un peut-il me dire ce que je manque ici, car la revendication intitulée me semble trivialement fausse : ils définissent un LLM comme une fonction qui associe une séquence s dans V^k à un vecteur dans R^d supposons un état caché en précision n bits. à un certain moment, il y a plus d'entrées possibles que d'états cachés : |V|^k > 2^{n * d} k > n d log(2) / log |V| prenons GPT-2 : n=16, d=768, V≈50,000 alors des collisions *doivent* se produire à partir d'une taille de fenêtre de contexte de 214 tokens cela semble en fait plutôt mauvais, non ?