尽管理论上可以处理长上下文,但现有的循环模型仍然存在不足:它们可能无法泛化超过训练长度。我们展示了一个简单而通用的修复方法,它可以在多达 256k 序列中实现长度泛化,而无需更改架构!
35.7K