Несмотря на то, что теоретически они работают с длинными контекстами, существующие рекуррентные модели все еще не справляются: они могут не обобщать дольше длины обучения. Мы показываем простое и универсальное решение, которое позволяет обобщать длину в последовательностях до 256k без необходимости изменения архитектуры!
35,71K