Nonostante la gestione teorica di contesti lunghi, i modelli ricorrenti esistenti non sono ancora all'altezza: potrebbero non riuscire a generalizzare oltre la durata dell'addestramento. Mostriamo una soluzione semplice e generale che consente la generalizzazione della lunghezza fino a 256k sequenze, senza bisogno di cambiare le architetture!
35,7K