Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
A equipe GLM agora está usando MLA!! esse é um modelo bem insano, com 30B de parâmetro total e cerca de 4B ativos. Lançamento muito bom
Em termos de estrutura, tem aproximadamente a mesma profundidade que o GLM4.5 Air e o Qwen3 30B A3B, 64 no total de Expert em vez de 128, mas eles só ativam 5 em vez de 9 se você contar o Expert compartilhado


Z.ai10 horas atrás
Apresentando o GLM-4.7-Flash: Seu assistente local de codificação e agente.
Estabelecendo um novo padrão para a classe 30B, o GLM-4.7-Flash equilibra alto desempenho com eficiência, tornando-se a opção perfeita de implantação leve. Além da programação, também é recomendado para escrita criativa, tradução, tarefas de contexto longo e interpretação de papéis.
Pesos:
API:
- GLM-4.7-Flash: Gratuito (1 concórdia)
- GLM-4.7-FlashX: Alta Velocidade e Acessível

É meio insano que essa atenção escassa esteja funcionando tão bem, eles só estão parcificando 50% das camadas MLA na base LongCat-Flash no meio do treinamento e obtêm resultados semelhantes ao modelo original
a calibração é selecionar quais camadas de MLA elas elas dispersam. O LongCat-Flash tem essa estrutura de camada "estranha" (não de um jeito ruim) onde há 2 camadas de atenção em uma camada, não há menção de algum tratamento diferente para essas 2 camadas, então estou assumindo que eles aplicam o mesmo processo em ambas. A etapa de calibração é:
saída = a_i · output_dense + (1 - a_i) · output_sparse
E eles fazem descida gradiente em a_i (que é por camada de atenção). Se a_i for alta => essa camada precisa ser densa, se não, você pode esparsificá-la. Dessa forma, eles esparsificam 50% das camadas (infelizmente não temos a distribuição das camadas esparsificadas). Essa etapa de calibração tem um impacto enorme na longeval
A atenção escassa também é muito simples, é fixa e não consciente do contexto como deepseek DSA/NSA ou MiniCPM InfiLLMv2, é uma janela deslizante com 8 blocos de 128 tokens (ou seja, tamanho da janela 1024), os primeiros 128 tokens e os últimos 896 tokens
Estou curioso se modelos @Meituan_LongCat futuros vão usar isso na produção e se é robusto para RL!

156
Melhores
Classificação
Favoritos

