J'aime vraiment ce résultat : un encadrement élégant et une solution pour améliorer significativement la généralisation de la longueur dans les modèles récurrents en général (RNN/SSM/attention linéaire/etc). Cela a des implications significatives pour les problèmes sur lesquels les chercheurs en architecture devraient se concentrer, à mon avis.
Ricardo Buitrago
Ricardo Buitrago8 juil. 2025
Despite theoretically handling long contexts, existing recurrent models still fall short: they may fail to generalize past the training length. We show a simple and general fix which enables length generalization in up to 256k sequences, with no need to change the architectures!
13,08K