het is behoorlijk insane dat deze sparse attention zo goed werkt, ze sparsificeren gewoon 50% van de MLA-lagen in de LongCat-Flash basis tijdens de training en krijgen vergelijkbare resultaten als het originele model de calibratie selecteert welke MLA-lagen ze sparsificeren. LongCat-Flash heeft deze "rare" (niet op een slechte manier) laagstructuur waar er 2 attentie-lagen in één laag zijn, er is geen vermelding van een andere behandeling voor die 2 lagen, dus ik neem aan dat ze hetzelfde proces op beide toepassen. De calibratiestap is: output = a_i · output_dense + (1 - a_i) · output_sparse en ze doen gradient descent op a_i (wat per attentielaag is). als a_i hoog is => deze laag moet dicht zijn, zo niet kun je het sparsificeren. op deze manier sparsificeren ze 50% van de lagen (we hebben helaas de verdeling van sparsified lagen niet). Deze calibratiestap heeft een enorme impact op longeval de sparse attention is ook heel eenvoudig, het is vast en niet contextbewust zoals deepseek DSA/NSA of MiniCPM InfiLLMv2, het is een schuifvenster met 8 blokken van 128 tokens (dus venstergrootte 1024), de eerste 128 tokens en de laatste 896 tokens ben benieuwd of toekomstige @Meituan_LongCat modellen dit in productie zullen gebruiken en of het robuust is voor RL!