Meskipun secara teoritis menangani konteks yang panjang, model berulang yang ada masih gagal: mereka mungkin gagal menggeneralisasi melewati durasi pelatihan. Kami menunjukkan perbaikan sederhana dan umum yang memungkinkan generalisasi panjang hingga 256k urutan, tanpa perlu mengubah arsitektur!
35,69K