Tôi thực sự thích kết quả này: một cách trình bày và giải pháp tinh tế để cải thiện đáng kể khả năng tổng quát về độ dài trong các mô hình hồi tiếp nói chung (RNNs/SSMs/sự chú ý tuyến tính/v.v.). Điều này có những tác động đáng kể đối với các vấn đề mà các nhà nghiên cứu kiến trúc nên tập trung vào, theo ý kiến của tôi.
Ricardo Buitrago
Ricardo Buitrago8 thg 7, 2025
Despite theoretically handling long contexts, existing recurrent models still fall short: they may fail to generalize past the training length. We show a simple and general fix which enables length generalization in up to 256k sequences, with no need to change the architectures!
13,08K