تعجبني حقا هذه النتيجة: تأطير أنيق وحل لتحسين تعميم الطول بشكل كبير في النماذج المتكررة بشكل عام (RNNs / SSMs / الانتباه الخطي / إلخ). هذا له آثار كبيرة على المشكلات التي يجب على الباحثين في الهندسة المعمارية التركيز عليها ، IMO
Ricardo Buitrago
Ricardo Buitrago‏8 يوليو 2025
Despite theoretically handling long contexts, existing recurrent models still fall short: they may fail to generalize past the training length. We show a simple and general fix which enables length generalization in up to 256k sequences, with no need to change the architectures!
‏‎13.08‏K