on aika uskomatonta, että tämä niukka huomio toimii niin hyvin, että he vain säästävät 50 % MLA-kerroksista LongCat-Flash-pohjassa kesken koulutuksen ja saavat samankaltaisia tuloksia kuin alkuperäinen malli
kalibrointi tarkoittaa, että valitsee, mitkä MLA-kerrokset ne harrastavat sitä. LongCat-Flashissa on tämä "outo" (ei huonolla tavalla) kerrosrakenne, jossa yhdessä kerroksessa on kaksi huomiokerrosta, eikä niille kerroksille mainita mitään erilaista käsittelyä, joten oletan, että sama prosessi sovelletaan molempiin. Kalibrointivaihe on:
output = a_i · output_dense + (1 - a_i) · output_sparse
Ja ne tekevät liukuvärin laskeutumista a_i (joka on per huomiokerros). jos a_i on korkea => tämän kerroksen täytyy olla tiheä, jos ei, sen voi harrastaa. Näin ne harrastavat 50 % kerroksista (valitettavasti meillä ei ole harvautuneiden kerrosten jakaumaa). Tällä kalibrointivaiheella on hullu vaikutus pitkäaikaiseen arviointiin
harva huomio on myös hyvin yksinkertaista, se on kiinteää eikä kontekstitietoista kuten deepseek DSA/NSA tai MiniCPM InfiLLMv2, se on liukuva ikkuna, jossa on 8 lohkoa, joissa on 128 tokenia (eli ikkunakoko 1024), ensimmäiset 128 tokenia ja viimeiset 896 tokenia
Olen utelen, käyttävätkö tulevat @Meituan_LongCat-mallit tätä tuotannossa ja onko se kestävä oikeaan aikaan!
Suurin osa verkkodatasta (erittäin) vähäresurssisilla kielillä on Raamattua ja Wikipediaa. Loput? @huggingface datatiimi pyöritti Gemma3 27B:tä kolmen kuukauden ajan kääntääkseen sen englanniksi, parantaakseen käännösmalleja ja tuodakseen kulttuurisen kontekstin 500+ kieliyhteisöstä englannin koulutusdataan. Tässä on koko tuotantoputki
Julkaisemme laajamittaisen synteettisen aineiston: 💬FineTranslationsin.
Otimme 🥂 FineWeb2:n, monikielisen esikoulutusaineistomme, ja käänsimme sen englanniksi käyttäen Gemma3 27B:tä.
Tuloksena on valtava rinnakkaiskorporaatio, jossa on yli 1 biljoonaa tokenia!