Мені дуже подобається цей результат: елегантне кадрування та рішення для значного покращення узагальнення довжини в рекурентних моделях загалом (RNNs/SSM/лінійна увага/тощо). Це має значні наслідки для проблем, на яких дослідники архітектури повинні зосередитися, IMO
Ricardo Buitrago
Ricardo Buitrago8 лип. 2025 р.
Незважаючи на теоретичну обробку довгих контекстів, існуючі рекурентні моделі все ще не встигають: вони можуть не узагальнити більше тривалості навчання. Ми показуємо просте та загальне виправлення, яке дозволяє узагальнювати довжину до 256 тисяч послідовностей, без необхідності змінювати архітектуру!
13,08K