Мне действительно нравится этот результат: элегантная структура и решение, которые значительно улучшают обобщение длины в рекуррентных моделях в целом (RNN/SSM/линейное внимание и т.д.). Это имеет значительные последствия для проблем, на которых, по моему мнению, исследователи архитектуры должны сосредоточиться.
Ricardo Buitrago
Ricardo Buitrago8 июл. 2025 г.
Despite theoretically handling long contexts, existing recurrent models still fall short: they may fail to generalize past the training length. We show a simple and general fix which enables length generalization in up to 256k sequences, with no need to change the architectures!
13,09K