儘管理論上可以處理長上下文,但現有的循環模型仍然存在不足:它們可能無法泛化超過訓練長度。我們展示了一個簡單而通用的修復方法,它可以在高達 256k 個序列中實現長度泛化,而無需更改架構!
35.7K