es bastante increíble que esta atención dispersa esté funcionando tan bien, simplemente están esparciendo el 50% de las capas MLA en la base de LongCat-Flash a mitad de entrenamiento y obtienen resultados similares al modelo original la calibración está seleccionando qué capas MLA esparcir. LongCat-Flash tiene esta estructura de capas "rara" (no de una mala manera) donde hay 2 capas de atención en una capa, no hay mención de un tratamiento diferente para esas 2 capas, así que asumo que están aplicando el mismo proceso a ambas. El paso de calibración es: output = a_i · output_dense + (1 - a_i) · output_sparse y hacen descenso de gradiente en a_i (que es por capa de atención). si a_i es alto => esta capa necesita ser densa, si no, puedes esparcirla. de esta manera esparcen el 50% de las capas (desafortunadamente no tenemos la distribución de capas esparcidas). Este paso de calibración tiene un impacto loco en longeval la atención dispersa es muy simple también, es fija y no es consciente del contexto como deepseek DSA/NSA o MiniCPM InfiLLMv2, es una ventana deslizante con 8 bloques de 128 tokens (así que tamaño de ventana 1024), los primeros 128 tokens y los últimos 896 tokens tengo curiosidad si los futuros modelos de @Meituan_LongCat usarán esto en producción y si es robusto para RL!