Saya sangat menyukai hasil ini: pembingkaian dan solusi yang elegan untuk secara signifikan meningkatkan generalisasi panjang dalam model berulang pada umumnya (RNN/SSM/perhatian linier/dll). Hal ini memiliki implikasi yang signifikan bagi masalah yang harus difokuskan oleh peneliti arsitektur, IMO
Ricardo Buitrago
Ricardo Buitrago8 Jul 2025
Meskipun secara teoritis menangani konteks yang panjang, model berulang yang ada masih gagal: mereka mungkin gagal menggeneralisasi melewati durasi pelatihan. Kami menunjukkan perbaikan sederhana dan umum yang memungkinkan generalisasi panjang hingga 256k urutan, tanpa perlu mengubah arsitektur!
13,07K