Bien qu’ils gèrent théoriquement des contextes longs, les modèles récurrents existants ne sont toujours pas à la hauteur : ils peuvent ne pas réussir à généraliser au-delà de la durée de l’entraînement. Nous montrons un correctif simple et général qui permet la généralisation de la longueur dans des séquences allant jusqu’à 256k, sans avoir besoin de changer les architectures !
35,71K