es una locura que esta escasa atención funcione tan bien, solo están esparciendo el 50% de las capas MLA en la base LongCat-Flash a mitad de entrenamiento y obtienen resultados similares al modelo original La calibración consiste en seleccionar qué capas MLA se dispersan. LongCat-Flash tiene esta estructura de capas "rara" (no en el mal sentido) donde hay 2 capas de atención en una capa, no se menciona ningún tratamiento diferente para esas dos capas, así que supongo que aplican el mismo proceso a ambas. El paso de calibración es: Salida = a_i · output_dense + (1 - a_i) · output_sparse Y hacen descenso de gradiente en a_i (que es por capa de atención). Si a_i es alta => esta capa debe ser densa, si no, puedes esparsarla. De esta manera esparsionan el 50% de las capas (desafortunadamente no tenemos la distribución de capas dispersas). Este paso de calibración tiene un impacto enorme en la longeval La atención escasa también es muy sencilla, es fija y no consciente del contexto como deepseek DSA/NSA o MiniCPM InfiLLMv2, es una ventana deslizante con 8 bloques de 128 tokens (tamaño de ventana 1024), los primeros 128 tokens y los últimos 896 tokens ¡Tengo curiosidad por saber si los futuros modelos de @Meituan_LongCat usarán esto en producción y si es robusto para la vida real!