é bastante insano que esta atenção esparsa esteja a funcionar tão bem, eles estão apenas a esparsificar 50% das camadas MLA na base LongCat-Flash a meio do treino e a obter resultados semelhantes ao modelo original a calibração está a selecionar quais camadas MLA eles esparsificam. O LongCat-Flash tem esta estrutura de camada "estranha" (não de uma forma negativa) onde há 2 camadas de atenção numa camada, não há menção de um tratamento diferente para essas 2 camadas, então estou a assumir que estão a aplicar o mesmo processo a ambas. O passo de calibração é: output = a_i · output_dense + (1 - a_i) · output_sparse e eles fazem descida de gradiente em a_i (que é por camada de atenção). se a_i é alto => esta camada precisa ser densa, se não, pode-se esparsificá-la. desta forma, eles esparsificam 50% das camadas (infelizmente não temos a distribuição das camadas esparsificadas). Este passo de calibração tem um impacto louco no longeval a atenção esparsa é muito simples também, é fixa e não está ciente do contexto como o deepseek DSA/NSA ou MiniCPM InfiLLMv2, é uma janela deslizante com 8 blocos de 128 tokens (então tamanho da janela 1024), os primeiros 128 tokens e os últimos 896 tokens curioso se os futuros modelos @Meituan_LongCat usarão isto em produção e se é robusto para RL!