het is behoorlijk insane dat deze sparse attention zo goed werkt, ze sparsificeren gewoon 50% van de MLA-lagen in de LongCat-Flash basis tijdens de training en krijgen vergelijkbare resultaten als het originele model
de calibratie selecteert welke MLA-lagen ze sparsificeren. LongCat-Flash heeft deze "rare" (niet op een slechte manier) laagstructuur waar er 2 attentie-lagen in één laag zijn, er is geen vermelding van een andere behandeling voor die 2 lagen, dus ik neem aan dat ze hetzelfde proces op beide toepassen. De calibratiestap is:
output = a_i · output_dense + (1 - a_i) · output_sparse
en ze doen gradient descent op a_i (wat per attentielaag is). als a_i hoog is => deze laag moet dicht zijn, zo niet kun je het sparsificeren. op deze manier sparsificeren ze 50% van de lagen (we hebben helaas de verdeling van sparsified lagen niet). Deze calibratiestap heeft een enorme impact op longeval
de sparse attention is ook heel eenvoudig, het is vast en niet contextbewust zoals deepseek DSA/NSA of MiniCPM InfiLLMv2, het is een schuifvenster met 8 blokken van 128 tokens (dus venstergrootte 1024), de eerste 128 tokens en de laatste 896 tokens
ben benieuwd of toekomstige @Meituan_LongCat modellen dit in productie zullen gebruiken en of het robuust is voor RL!
De meeste webdata in (zeer) laagresource talen is de Bijbel en Wikipedia. De rest? @huggingface datateam heeft Gemma3 27B drie maanden laten draaien om het in het Engels te vertalen, om vertaalmodellen te verbeteren en om culturele context van 500+ taalgemeenschappen in Engelse trainingsdata te brengen. Hier is de volledige pipeline
We brengen een grootschalige synthetische dataset uit: 💬FineTranslations.
We hebben 🥂 FineWeb2, onze meertalige pre-trainingsdataset, genomen en deze in het Engels vertaald met Gemma3 27B.
Het resultaat is een enorme parallelle corpus, met meer dan 1 biljoen tokens!