Obwohl sie theoretisch lange Kontexte verarbeiten, sind bestehende rekurrente Modelle immer noch unzureichend: Sie können möglicherweise nicht über die Trainingslänge hinaus verallgemeinert werden. Wir zeigen eine einfache und allgemeine Lösung, die eine Längenverallgemeinerung in bis zu 256k Sequenzen ermöglicht, ohne dass die Architekturen geändert werden müssen!
35,7K