Jeg liker virkelig dette resultatet: en elegant innramming og løsning for å forbedre lengdegeneralisering betydelig i tilbakevendende modeller for øvrig (RNN-er/SSM-er/lineær oppmerksomhet/etc). Dette har betydelige implikasjoner for problemene arkitekturforskere bør fokusere på, IMO
Ricardo Buitrago
Ricardo Buitrago8. juli 2025
Til tross for at de teoretisk håndterer lange kontekster, kommer eksisterende tilbakevendende modeller fortsatt til kort: de klarer kanskje ikke å generalisere forbi treningslengden. Vi viser en enkel og generell løsning som muliggjør lengdegeneralisering i opptil 256k sekvenser, uten behov for å endre arkitekturene!
13,07K