DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

elie

A equipe GLM agora está usando MLA!! esse é um modelo bem insano, com 30B de parâmetro total e cerca de 4B ativos. Lançamento muito bom Em termos de estrutura, tem aproximadamente a mesma profundidade que o GLM4.5 Air e o Qwen3 30B A3B, 64 no total de Expert em vez de 128, mas eles só ativam 5 em vez de 9 se você contar o Expert compartilhado

Z.ai10 horas atrás

Apresentando o GLM-4.7-Flash: Seu assistente local de codificação e agente. Estabelecendo um novo padrão para a classe 30B, o GLM-4.7-Flash equilibra alto desempenho com eficiência, tornando-se a opção perfeita de implantação leve. Além da programação, também é recomendado para escrita criativa, tradução, tarefas de contexto longo e interpretação de papéis. Pesos: API: - GLM-4.7-Flash: Gratuito (1 concórdia) - GLM-4.7-FlashX: Alta Velocidade e Acessível

elie13 de jan., 03:14

LFG e Deepseek usam Muon na configuração de ablação de seu artigo mais recente

106

elie12 de jan., 03:21

É meio insano que essa atenção escassa esteja funcionando tão bem, eles só estão parcificando 50% das camadas MLA na base LongCat-Flash no meio do treinamento e obtêm resultados semelhantes ao modelo original a calibração é selecionar quais camadas de MLA elas elas dispersam. O LongCat-Flash tem essa estrutura de camada "estranha" (não de um jeito ruim) onde há 2 camadas de atenção em uma camada, não há menção de algum tratamento diferente para essas 2 camadas, então estou assumindo que eles aplicam o mesmo processo em ambas. A etapa de calibração é: saída = a_i · output_dense + (1 - a_i) · output_sparse E eles fazem descida gradiente em a_i (que é por camada de atenção). Se a_i for alta => essa camada precisa ser densa, se não, você pode esparsificá-la. Dessa forma, eles esparsificam 50% das camadas (infelizmente não temos a distribuição das camadas esparsificadas). Essa etapa de calibração tem um impacto enorme na longeval A atenção escassa também é muito simples, é fixa e não consciente do contexto como deepseek DSA/NSA ou MiniCPM InfiLLMv2, é uma janela deslizante com 8 blocos de 128 tokens (ou seja, tamanho da janela 1024), os primeiros 128 tokens e os últimos 896 tokens Estou curioso se modelos @Meituan_LongCat futuros vão usar isso na produção e se é robusto para RL!

156

Melhores

Classificação

Favoritos

Português (Brasil)简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Mais sobre a OKX Web3

Baixar Tutoriais Nossa equipe Carreiras Fale conosco Termos de serviço Aviso de Privacidade X (antigo Twitter)

Produto

Painel da carteira Swap Marketplace Earn Descubra Crie Explorador Segurança

Atendimento

Centro de ajuda Verificação oficial Avisos Tabela de tarifas DEX Conecte-se com a OKX Carteira Bitcoin Carteira Ethereum Carteira Solana