Mi piace davvero questo risultato: una cornice elegante e una soluzione per migliorare significativamente la generalizzazione della lunghezza nei modelli ricorrenti in generale (RNN/SSM/attenzione lineare/ecc). Questo ha implicazioni significative per i problemi su cui i ricercatori di architettura dovrebbero concentrarsi, secondo me.
Ricardo Buitrago
Ricardo Buitrago8 lug 2025
Nonostante la gestione teorica di contesti lunghi, i modelli ricorrenti esistenti non sono ancora all'altezza: potrebbero non riuscire a generalizzare oltre la durata dell'addestramento. Mostriamo una soluzione semplice e generale che consente la generalizzazione della lunghezza fino a 256k sequenze, senza bisogno di cambiare le architetture!
13,07K