E destul de incredibil că această atenție slabă funcționează atât de bine, doar că parcizează 50% din straturile MLA din LongCat-Flash la mijlocul antrenamentului și obțin rezultate similare cu modelul original
calibrarea constă în selectarea straturilor MLA pe care le sparsionează. LongCat-Flash are această structură de straturi "ciudată" (nu într-un mod rău), unde sunt 2 straturi de atenție într-un singur strat, nu există nicio mențiune despre un tratament diferit pentru cele două straturi, așa că presupun că aplică același proces ambelor. Pasul de calibrare este:
ieșire = a_i · output_dense + (1 - a_i) · output_sparse
Și fac gradient descendent pe a_i (care este pe fiecare strat de atenție). Dacă a_i este mare => acest strat trebuie să fie dens, dacă nu, îl poți sparsi. Astfel, ei sparsifică 50% din straturi (din păcate nu avem distribuția straturilor sparsificate). Această etapă de calibrare are un impact incredibil asupra longevralului
Atenția rară este și ea foarte simplă, este fixă și nu conștientă de context ca deepseek DSA/NSA sau MiniCPM InfiLLMv2, este o fereastră glisantă cu 8 blocuri de 128 tokenuri (deci dimensiunea ferestrei 1024), primele 128 de tokenuri și ultimele 896 token-uri
Sunt curios dacă modelele @Meituan_LongCat viitoare vor folosi asta în producție și dacă este robust pentru RL!
Majoritatea datelor web în limbi cu (foarte) puține resurse sunt din Biblie și Wikipedia. Restul? @huggingface echipă de date a rulat Gemma3 27B timp de 3 luni pentru a-l traduce în engleză, a îmbunătăți modelele de traducere și a aduce context cultural din 500+ comunități lingvistice în datele de antrenament în limba engleză. Iată întregul pipeline
Lansăm un set de date sintetic la scară largă: 💬FineTranslations.
Am luat 🥂 FineWeb2, setul nostru multilingv de date pre-antrenament, și l-am tradus în engleză folosind Gemma3 27B.
Rezultatul este un corpus paralel masiv, cu peste 1 trilion de tokenuri!