理論的には長いコンテキストを処理しているにもかかわらず、既存のリカレントモデルは依然として不十分であり、トレーニングの長さを超えて一般化できない可能性があります。アーキテクチャを変更することなく、最大256kシーケンスで長さの一般化を可能にするシンプルで一般的な修正を示します。
35.7K