Kann mir jemand sagen, was ich hier übersehe, denn die titulierte Behauptung scheint mir trivial falsch zu sein: Sie definieren ein LLM als eine Funktion, die die Sequenz s in V^k auf einen Vektor in R^d abbildet. Angenommen, der verborgene Zustand hat eine n-Bit-Präzision. Irgendwann gibt es mehr mögliche Eingaben als verborgene Zustände: |V|^k > 2^{n * d} k > n d log(2) / log |V| Nehmen wir GPT-2: n=16, d=768, V≈50.000 Dann müssen Kollisionen ab einer Kontextfenstergröße von 214 Tokens auftreten. Das scheint tatsächlich irgendwie schlecht zu sein, oder?