Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformador vs. Mistura de Especialistas em LLMs, claramente explicado (com recursos visuais):
Mixture of Experts (MoE) é uma arquitetura popular que usa diferentes "especialistas" para melhorar os modelos do Transformer.
O visual abaixo explica como eles diferem dos Transformers.
Vamos mergulhar para saber mais sobre o MoE!
Transformador e MoE diferem no bloco decodificador:
- O Transformer usa uma rede feed-forward.
- O MoE usa especialistas, que são redes feed-forward, mas menores em comparação com o Transformer.
Durante a inferência, um subconjunto de especialistas é selecionado. Isso torna a inferência mais rápida no MoE.
Como a rede tem várias camadas de decodificador:
- O texto passa por diferentes especialistas em camadas.
- Os especialistas escolhidos também diferem entre os tokens.
Mas como o modelo decide quais especialistas devem ser ideais?
O roteador faz isso. Vamos discutir isso a seguir.
O roteador é como um classificador multiclasse que produz pontuações softmax sobre especialistas. Com base nas pontuações, selecionamos os principais especialistas K.
O roteador é treinado com a rede e aprende a selecionar os melhores especialistas.
Mas não é simples. Vamos discutir os desafios!
Desafio 1) Observe este padrão no início do treinamento:
- O modelo seleciona "Expert 2"
- O especialista fica um pouco melhor
- Pode ser selecionado novamente
- O especialista aprende mais
- Ele é selecionado novamente
- Aprende mais
- E assim por diante!
Muitos especialistas são mal treinados!
Resolvemos isso em duas etapas:
- Adicione ruído à saída feed-forward do roteador para que outros especialistas possam obter logits mais altos.
- Defina todos, exceto os top K logits, como -infinito. Após o softmax, essas pontuações se tornam zero.
Dessa forma, outros especialistas também têm a oportunidade de treinar.
Desafio 2) Alguns especialistas podem ser expostos a mais tokens do que outros, levando a especialistas mal treinados.
Evitamos isso limitando o número de tokens que um especialista pode processar.
Se um especialista atingir o limite, o token de entrada será passado para o próximo melhor especialista.
Os MoEs têm mais parâmetros para carregar. No entanto, uma fração deles é ativada, pois selecionamos apenas alguns especialistas.
Isso leva a uma inferência mais rápida. Mixtral 8x7B da @MistralAI é um LLM famoso baseado no MoE.
Aqui está o visual novamente que compara Transformers e MoE!
Se você achou perspicaz, compartilhe novamente com sua rede.
Encontre-me → @akshay_pachaar ✔️
Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!

21 de jul. de 2025
Transformador vs. Mistura de Especialistas em LLMs, claramente explicado (com recursos visuais):
228,83K
Melhores
Classificação
Favoritos