É meio insano que essa atenção escassa esteja funcionando tão bem, eles só estão parcificando 50% das camadas MLA na base LongCat-Flash no meio do treinamento e obtêm resultados semelhantes ao modelo original
a calibração é selecionar quais camadas de MLA elas elas dispersam. O LongCat-Flash tem essa estrutura de camada "estranha" (não de um jeito ruim) onde há 2 camadas de atenção em uma camada, não há menção de algum tratamento diferente para essas 2 camadas, então estou assumindo que eles aplicam o mesmo processo em ambas. A etapa de calibração é:
saída = a_i · output_dense + (1 - a_i) · output_sparse
E eles fazem descida gradiente em a_i (que é por camada de atenção). Se a_i for alta => essa camada precisa ser densa, se não, você pode esparsificá-la. Dessa forma, eles esparsificam 50% das camadas (infelizmente não temos a distribuição das camadas esparsificadas). Essa etapa de calibração tem um impacto enorme na longeval
A atenção escassa também é muito simples, é fixa e não consciente do contexto como deepseek DSA/NSA ou MiniCPM InfiLLMv2, é uma janela deslizante com 8 blocos de 128 tokens (ou seja, tamanho da janela 1024), os primeiros 128 tokens e os últimos 896 tokens
Estou curioso se modelos @Meituan_LongCat futuros vão usar isso na produção e se é robusto para RL!
A maior parte dos dados da web em linguagens (muito) de poucos recursos é a Bíblia e a Wikipédia. O resto? @huggingface equipe de dados rodou o Gemma3 27B por 3 meses para traduzi-lo para o inglês, melhorar os modelos de tradução e trazer contexto cultural de 500+ comunidades linguísticas para dados de treinamento em inglês. Aqui está o pipeline completo
Estamos lançando um conjunto de dados sintético em grande escala: 💬FineTranslations.
Pegamos 🥂 o FineWeb2, nosso conjunto de dados multilíngue pré-treinamento, e o traduzimos para o inglês usando o Gemma3 27B.
O resultado é um enorme corpus paralelo, com mais de 1 trilhão de tokens!