ktoś mi powiedz, co mi umyka, bo tytułowe twierdzenie wydaje mi się trywialnie fałszywe: definiują LLM jako funkcję, która mapuje sekwencję s w V^k na wektor w R^d zakładając stan ukryty w precyzji n-bitowej. w pewnym momencie możliwych jest więcej wejść niż stanów ukrytych: |V|^k > 2^{n * d} k > n d log(2) / log |V| weźmy GPT-2: n=16, d=768, V≈50,000 wtedy kolizje *muszą* wystąpić zaczynając od rozmiaru okna kontekstowego 214 tokenów to wydaje się naprawdę dość złe, prawda?