私はこの結果が本当に好きです:大規模なリカレントモデル(RNN / SSM /線形アテンションなど)での長さの一般化を大幅に改善するためのエレガントなフレーミングとソリューション。 これは、アーキテクチャ研究者が焦点を当てるべき問題、IMOに大きな影響を与えます
Ricardo Buitrago
Ricardo Buitrago2025年7月8日
Despite theoretically handling long contexts, existing recurrent models still fall short: they may fail to generalize past the training length. We show a simple and general fix which enables length generalization in up to 256k sequences, with no need to change the architectures!
13.07K