Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
het is behoorlijk insane dat deze sparse attention zo goed werkt, ze sparsificeren gewoon 50% van de MLA-lagen in de LongCat-Flash basis tijdens de training en krijgen vergelijkbare resultaten als het originele model
de calibratie selecteert welke MLA-lagen ze sparsificeren. LongCat-Flash heeft deze "rare" (niet op een slechte manier) laagstructuur waar er 2 attentie-lagen in één laag zijn, er is geen vermelding van een andere behandeling voor die 2 lagen, dus ik neem aan dat ze hetzelfde proces op beide toepassen. De calibratiestap is:
output = a_i · output_dense + (1 - a_i) · output_sparse
en ze doen gradient descent op a_i (wat per attentielaag is). als a_i hoog is => deze laag moet dicht zijn, zo niet kun je het sparsificeren. op deze manier sparsificeren ze 50% van de lagen (we hebben helaas de verdeling van sparsified lagen niet). Deze calibratiestap heeft een enorme impact op longeval
de sparse attention is ook heel eenvoudig, het is vast en niet contextbewust zoals deepseek DSA/NSA of MiniCPM InfiLLMv2, het is een schuifvenster met 8 blokken van 128 tokens (dus venstergrootte 1024), de eerste 128 tokens en de laatste 896 tokens
ben benieuwd of toekomstige @Meituan_LongCat modellen dit in productie zullen gebruiken en of het robuust is voor RL!

Boven
Positie
Favorieten
