Незважаючи на теоретичну обробку довгих контекстів, існуючі рекурентні моделі все ще не встигають: вони можуть не узагальнити більше тривалості навчання. Ми показуємо просте та загальне виправлення, яке дозволяє узагальнювати довжину до 256 тисяч послідовностей, без необхідності змінювати архітектуру!
35,7K