Хто-небудь скажіть мені, чого мені тут не вистачає, тому що назване твердження здається мені банально брехливим: вони визначають LLM як функцію, яка відображає послідовність s у V^k на вектор у R^d Прийміть прихований стан з точністю до n-біт. У певний момент можливих входів більше, ніж прихованих станів: |V|^k > 2^{n * d} k > n d log(2) / log |V| візьмемо GPT-2: n=16, d=768, V≈50,000 тоді колізії *повинні* відбутися, починаючи з розміру контекстного вікна в 214 токенів Це здається насправді дещо поганим, чи не так?