c'est assez fou que cette attention sparse fonctionne si bien, ils ne font que sparsifier 50 % des couches MLA dans la base LongCat-Flash à mi-formation et obtiennent des résultats similaires à ceux du modèle original la calibration sélectionne quelles couches MLA ils sparsifient. LongCat-Flash a cette structure de couche "bizarre" (pas dans un mauvais sens) où il y a 2 couches d'attention dans une seule couche, il n'y a aucune mention d'un traitement différent pour ces 2 couches donc je suppose qu'ils appliquent le même processus aux deux. L'étape de calibration est : output = a_i · output_dense + (1 - a_i) · output_sparse et ils font une descente de gradient sur a_i (qui est par couche d'attention). si a_i est élevé => cette couche doit être dense, sinon vous pouvez la sparsifier. de cette façon, ils sparsifient 50 % des couches (nous n'avons malheureusement pas la distribution des couches sparsifiées). Cette étape de calibration a un impact fou sur longeval l'attention sparse est également très simple, elle est fixe et non contextuelle comme deepseek DSA/NSA ou MiniCPM InfiLLMv2, c'est une fenêtre glissante avec 8 blocs de 128 tokens (donc taille de fenêtre 1024), les premiers 128 tokens et les derniers 896 tokens je suis curieux de savoir si les futurs modèles @Meituan_LongCat utiliseront cela en production et si c'est robuste face à RL !