Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
c'est assez fou que cette attention sparse fonctionne si bien, ils ne font que sparsifier 50 % des couches MLA dans la base LongCat-Flash à mi-formation et obtiennent des résultats similaires à ceux du modèle original
la calibration sélectionne quelles couches MLA ils sparsifient. LongCat-Flash a cette structure de couche "bizarre" (pas dans un mauvais sens) où il y a 2 couches d'attention dans une seule couche, il n'y a aucune mention d'un traitement différent pour ces 2 couches donc je suppose qu'ils appliquent le même processus aux deux. L'étape de calibration est :
output = a_i · output_dense + (1 - a_i) · output_sparse
et ils font une descente de gradient sur a_i (qui est par couche d'attention). si a_i est élevé => cette couche doit être dense, sinon vous pouvez la sparsifier. de cette façon, ils sparsifient 50 % des couches (nous n'avons malheureusement pas la distribution des couches sparsifiées). Cette étape de calibration a un impact fou sur longeval
l'attention sparse est également très simple, elle est fixe et non contextuelle comme deepseek DSA/NSA ou MiniCPM InfiLLMv2, c'est une fenêtre glissante avec 8 blocs de 128 tokens (donc taille de fenêtre 1024), les premiers 128 tokens et les derniers 896 tokens
je suis curieux de savoir si les futurs modèles @Meituan_LongCat utiliseront cela en production et si c'est robuste face à RL !

Meilleurs
Classement
Favoris
