Ondanks het feit dat ze theoretisch omgaan met lange contexten, schieten bestaande terugkerende modellen nog steeds tekort: ze kunnen er niet in slagen om te generaliseren na de trainingsduur. We laten een eenvoudige en algemene oplossing zien die lengtegeneralisatie mogelijk maakt in maximaal 256k-sequenties, zonder dat de architecturen hoeven te worden gewijzigd!
35,71K