熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我真的很喜歡這個結果:一個優雅的框架和解決方案,可以顯著改善循環模型(RNNs/SSMs/線性注意力等)在長度泛化方面的表現。
在我看來,這對於架構研究者應該專注的問題具有重要的意義。

2025年7月8日
儘管理論上可以處理長上下文,但現有的循環模型仍然存在不足:它們可能無法泛化超過訓練長度。我們展示了一個簡單而通用的修復方法,它可以在高達 256k 個序列中實現長度泛化,而無需更改架構!

13.07K
熱門
排行
收藏