Gosto muito deste resultado: uma moldura e solução elegantes para melhorar significativamente a generalização de comprimento em modelos recorrentes em grande escala (RNNs/SSMs/atenção linear/etc). Isto tem implicações significativas para os problemas em que os investigadores de arquitetura devem se concentrar, na minha opinião.