我真的很喜歡這個結果:一個優雅的框架和解決方案,可以顯著改善循環模型(RNNs/SSMs/線性注意力等)在長度泛化方面的表現。 在我看來,這對於架構研究者應該專注的問題具有重要的意義。
Ricardo Buitrago
Ricardo Buitrago2025年7月8日
儘管理論上可以處理長上下文,但現有的循環模型仍然存在不足:它們可能無法泛化超過訓練長度。我們展示了一個簡單而通用的修復方法,它可以在高達 256k 個序列中實現長度泛化,而無需更改架構!
13.07K