Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
é bastante insano que esta atenção esparsa esteja a funcionar tão bem, eles estão apenas a esparsificar 50% das camadas MLA na base LongCat-Flash a meio do treino e a obter resultados semelhantes ao modelo original
a calibração está a selecionar quais camadas MLA eles esparsificam. O LongCat-Flash tem esta estrutura de camada "estranha" (não de uma forma negativa) onde há 2 camadas de atenção numa camada, não há menção de um tratamento diferente para essas 2 camadas, então estou a assumir que estão a aplicar o mesmo processo a ambas. O passo de calibração é:
output = a_i · output_dense + (1 - a_i) · output_sparse
e eles fazem descida de gradiente em a_i (que é por camada de atenção). se a_i é alto => esta camada precisa ser densa, se não, pode-se esparsificá-la. desta forma, eles esparsificam 50% das camadas (infelizmente não temos a distribuição das camadas esparsificadas). Este passo de calibração tem um impacto louco no longeval
a atenção esparsa é muito simples também, é fixa e não está ciente do contexto como o deepseek DSA/NSA ou MiniCPM InfiLLMv2, é uma janela deslizante com 8 blocos de 128 tokens (então tamanho da janela 1024), os primeiros 128 tokens e os últimos 896 tokens
curioso se os futuros modelos @Meituan_LongCat usarão isto em produção e se é robusto para RL!

Top
Classificação
Favoritos
