Pomimo teoretycznego radzenia sobie z długimi kontekstami, istniejące modele rekurencyjne nadal nie są wystarczające: mogą nie uogólniać poza długość szkolenia. Pokazujemy prostą i ogólną poprawkę, która umożliwia uogólnianie długości w sekwencjach do 256k, bez konieczności zmiany architektury!
35,71K