det är ganska galet att denna sparsamma uppmärksamhet fungerar så bra, de sparsifierar bara 50 % av MLA-lagren i LongCat-Flash-basen mitt i träningen och får liknande resultat som originalmodellen
kalibreringen är att välja vilka MLA-lager de sparserar. LongCat-Flash har denna "konstiga" (inte på ett dåligt sätt) lagerstruktur där det finns två uppmärksamhetslager i ett lager, det nämns inget om någon annan behandling för de två lagren så jag antar att de applicerar samma process på båda. Kalibreringssteget är:
utgång = a_i · output_dense + (1 - a_i) · output_sparse
Och de gör gradientnedstigning på a_i (vilket är per uppmärksamhetslager). Om a_i är hög => måste detta lager vara tätt, annars kan du sparsifiera det. På så sätt sparsifierar de 50% av lagren (tyvärr har vi inte fördelningen av sparsifierade lager). Detta kalibreringssteg har en galen effekt på longeval
Den sparsamma uppmärksamheten är också väldigt enkel, den är fast och inte kontextmedveten som Deepseek DSA/NSA eller MiniCPM InfiLLMv2, det är ett glidande fönster med 8 block om 128 tokens (så fönsterstorlek 1024), de första 128 tokens och de sista 896 tokens
Nyfiken på om framtida @Meituan_LongCat-modeller kommer att använda detta i produktion och om det är robust mot RL!
Det mesta av webbdata på (mycket) resursfattiga språk är Bibeln och Wikipedia. Resten? @huggingface datateam körde Gemma3 27B i 3 månader för att översätta det till engelska, förbättra översättningsmodeller och för att föra in kulturell kontext från 500+ språkiga gemenskaper i engelska träningsdata. Här är hela pipelinen
Vi släpper en storskalig syntetisk datamängd: 💬FineTranslations.
Vi tog 🥂 FineWeb2, vår flerspråkiga förträningsdatamängd, och översatte den till engelska med hjälp av Gemma3 27B.
Resultatet är ett massivt parallellt korpus, med mer än 1 biljon tokens!