det er ganske sprøtt at denne sparsomme oppmerksomheten fungerer så bra, de sparsifierer bare 50 % av MLA-lagene i LongCat-Flash-basen midt i treningen og får lignende resultater som den opprinnelige modellen
kalibreringen er å velge hvilke MLA-lag de sparserer. LongCat-Flash har denne «rare» (ikke på en dårlig måte) lagstruktur hvor det er to oppmerksomhetslag i ett lag, det er ingen omtale av forskjellig behandling for de to lagene, så jeg antar at de bruker samme prosess på begge. Kalibreringstrinnet er:
utgang = a_i · output_dense + (1 - a_i) · output_sparse
Og de gjør gradient descent på a_i (som er per oppmerksomhetslag). Hvis a_i er høyt => må dette laget være tett, hvis ikke kan du sparsifisere det. På denne måten sparsifiserer de 50 % av lagene (vi har dessverre ikke fordelingen av sparsifiserte lag). Dette kalibreringssteget har en vill innvirkning på longeval
den sparsomme oppmerksomheten er også veldig enkel, den er fast og ikke kontekstbevisst som Deepseek DSA/NSA eller MiniCPM InfiLLMv2, det er et glidende vindu med 8 blokker med 128 tokens (altså vindusstørrelse 1024), de første 128 tokenene og de siste 896 tokenene
Nysgjerrig på om fremtidige @Meituan_LongCat-modeller vil bruke dette i produksjon og om det er robust mot RL!
De fleste nettdata på (veldig) lavressursspråk er Bibelen og Wikipedia. Resten? Datateamet @huggingface kjørte Gemma3 27B i 3 måneder for å oversette det til engelsk, forbedre oversettelsesmodeller og bringe kulturell kontekst fra 500+ språksamfunn inn i engelsk treningsdata. Her er hele pipelinen
Vi slipper et storskala syntetisk datasett: 💬FineTranslations.
Vi tok 🥂 FineWeb2, vårt flerspråklige fortreningsdatasett, og oversatte det til engelsk ved hjelp av Gemma3 27B.
Resultatet er et massivt parallelt korpora, med mer enn 1 billion tokens!