c'est assez fou que cette attention sparse fonctionne si bien, ils ne font que sparsifier 50 % des couches MLA dans la base LongCat-Flash à mi-formation et obtiennent des résultats similaires à ceux du modèle original
la calibration sélectionne quelles couches MLA ils sparsifient. LongCat-Flash a cette structure de couche "bizarre" (pas dans un mauvais sens) où il y a 2 couches d'attention dans une seule couche, il n'y a aucune mention d'un traitement différent pour ces 2 couches donc je suppose qu'ils appliquent le même processus aux deux. L'étape de calibration est :
output = a_i · output_dense + (1 - a_i) · output_sparse
et ils font une descente de gradient sur a_i (qui est par couche d'attention). si a_i est élevé => cette couche doit être dense, sinon vous pouvez la sparsifier. de cette façon, ils sparsifient 50 % des couches (nous n'avons malheureusement pas la distribution des couches sparsifiées). Cette étape de calibration a un impact fou sur longeval
l'attention sparse est également très simple, elle est fixe et non contextuelle comme deepseek DSA/NSA ou MiniCPM InfiLLMv2, c'est une fenêtre glissante avec 8 blocs de 128 tokens (donc taille de fenêtre 1024), les premiers 128 tokens et les derniers 896 tokens
je suis curieux de savoir si les futurs modèles @Meituan_LongCat utiliseront cela en production et si c'est robuste face à RL !
La plupart des données web dans des langues (très) peu ressources proviennent de la Bible et de Wikipedia. Le reste ? L'équipe de données de @huggingface a exécuté Gemma3 27B pendant 3 mois pour le traduire en anglais, afin d'améliorer les modèles de traduction et d'apporter un contexte culturel de plus de 500 communautés linguistiques dans les données d'entraînement en anglais. Voici le pipeline complet
Nous publions un ensemble de données synthétiques à grande échelle : 💬FineTranslations.
Nous avons pris 🥂 FineWeb2, notre ensemble de données multilingue de pré-entraînement, et l'avons traduit en anglais en utilisant Gemma3 27B.
Le résultat est un corpus parallèle massif, avec plus de 1 trillion de tokens !