è piuttosto pazzesco che questa attenzione sparsa funzioni così bene, stanno semplicemente sparsificando il 50% degli strati MLA nel modello LongCat-Flash a metà addestramento e ottengono risultati simili a quelli del modello originale
la calibrazione seleziona quali strati MLA sparsificare. LongCat-Flash ha questa struttura di strati "strana" (non in senso negativo) in cui ci sono 2 strati di attenzione in uno strato, non c'è menzione di un trattamento diverso per quei 2 strati, quindi presumo stiano applicando lo stesso processo a entrambi. Il passo di calibrazione è:
output = a_i · output_dense + (1 - a_i) · output_sparse
e fanno discesa del gradiente su a_i (che è per strato di attenzione). se a_i è alto => questo strato deve essere denso, altrimenti puoi sparsificarlo. in questo modo sparsificano il 50% degli strati (purtroppo non abbiamo la distribuzione degli strati sparsificati). Questo passo di calibrazione ha un impatto pazzesco su longeval
l'attenzione sparsa è molto semplice, è fissa e non consapevole del contesto come deepseek DSA/NSA o MiniCPM InfiLLMv2, è una finestra scorrevole con 8 blocchi di 128 token (quindi dimensione della finestra 1024), i primi 128 token e gli ultimi 896 token
curioso se i futuri modelli @Meituan_LongCat utilizzeranno questo in produzione e se è robusto per RL!
La maggior parte dei dati web nelle lingue a (molto) bassa risorsa è costituita da Bibbia e Wikipedia. E il resto? Il team dati di @huggingface ha eseguito Gemma3 27B per 3 mesi per tradurlo in inglese, per migliorare i modelli di traduzione e per portare il contesto culturale da oltre 500 comunità linguistiche nei dati di addestramento in inglese. Ecco l'intero processo.
Stiamo rilasciando un dataset sintetico su larga scala: 💬FineTranslations.
Abbiamo preso 🥂 FineWeb2, il nostro dataset di pre-addestramento multilingue, e lo abbiamo tradotto in inglese utilizzando Gemma3 27B.
Il risultato è un enorme corpus parallelo, con più di 1 trilione di token!