Eu realmente gosto deste resultado: um enquadramento elegante e uma solução para melhorar significativamente a generalização do comprimento em modelos recorrentes em geral (RNNs / SSMs / atenção linear / etc). Isso tem implicações significativas para os problemas nos quais os pesquisadores de arquitetura devem se concentrar, IMO
Ricardo Buitrago
Ricardo Buitrago8 de jul. de 2025
Apesar de teoricamente lidar com contextos longos, os modelos recorrentes existentes ainda ficam aquém: eles podem não generalizar além da duração do treinamento. Mostramos uma correção simples e geral que permite a generalização de comprimento em sequências de até 256k, sem necessidade de alterar as arquiteturas!
13,09K