Til tross for at de teoretisk håndterer lange kontekster, kommer eksisterende tilbakevendende modeller fortsatt til kort: de klarer kanskje ikke å generalisere forbi treningslengden. Vi viser en enkel og generell løsning som muliggjør lengdegeneralisering i opptil 256k sekvenser, uten behov for å endre arkitekturene!
35,69K