Navzdory teoretickému zpracování dlouhých kontextů stávající opakující se modely stále zaostávají: nemusí se jim podařit zobecnit za délku trénování. Ukazujeme jednoduchý a obecný opravu, která umožňuje zobecnění délky až do 256k sekvencí, bez nutnosti měnit architektury!
35,7K