Bardzo podoba mi się ten wynik: eleganckie ujęcie i rozwiązanie, które znacząco poprawia generalizację długości w modelach rekurencyjnych na dużą skalę (RNN/SSM/uwaga liniowa itd.). Ma to istotne implikacje dla problemów, na których powinni skupić się badacze architektury, moim zdaniem.
Ricardo Buitrago
Ricardo Buitrago8 lip 2025
Despite theoretically handling long contexts, existing recurrent models still fall short: they may fail to generalize past the training length. We show a simple and general fix which enables length generalization in up to 256k sequences, with no need to change the architectures!
13,08K