Ich mag dieses Ergebnis wirklich: eine elegante Rahmung und Lösung, um die Längengeneralisierung in rekurrenten Modellen erheblich zu verbessern (RNNs/SSMs/lineare Aufmerksamkeit usw.). Dies hat erhebliche Auswirkungen auf die Probleme, auf die sich Architekturforscher meiner Meinung nach konzentrieren sollten.
Ricardo Buitrago
Ricardo Buitrago8. Juli 2025
Obwohl sie theoretisch lange Kontexte verarbeiten, sind bestehende rekurrente Modelle immer noch unzureichend: Sie können möglicherweise nicht über die Trainingslänge hinaus verallgemeinert werden. Wir zeigen eine einfache und allgemeine Lösung, die eine Längenverallgemeinerung in bis zu 256k Sequenzen ermöglicht, ohne dass die Architekturen geändert werden müssen!
13,08K