Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich mag dieses Ergebnis wirklich: eine elegante Rahmung und Lösung, um die Längengeneralisierung in rekurrenten Modellen erheblich zu verbessern (RNNs/SSMs/lineare Aufmerksamkeit usw.).
Dies hat erhebliche Auswirkungen auf die Probleme, auf die sich Architekturforscher meiner Meinung nach konzentrieren sollten.

8. Juli 2025
Obwohl sie theoretisch lange Kontexte verarbeiten, sind bestehende rekurrente Modelle immer noch unzureichend: Sie können möglicherweise nicht über die Trainingslänge hinaus verallgemeinert werden. Wir zeigen eine einfache und allgemeine Lösung, die eine Längenverallgemeinerung in bis zu 256k Sequenzen ermöglicht, ohne dass die Architekturen geändert werden müssen!

13,08K
Top
Ranking
Favoriten