Transformador vs. Mistura de Especialistas em LLMs, claramente explicado (com recursos visuais):
Mixture of Experts (MoE) é uma arquitetura popular que usa diferentes "especialistas" para melhorar os modelos do Transformer. O visual abaixo explica como eles diferem dos Transformers. Vamos mergulhar para saber mais sobre o MoE!
Transformador e MoE diferem no bloco decodificador: - O Transformer usa uma rede feed-forward. - O MoE usa especialistas, que são redes feed-forward, mas menores em comparação com o Transformer. Durante a inferência, um subconjunto de especialistas é selecionado. Isso torna a inferência mais rápida no MoE.
Como a rede tem várias camadas de decodificador: - O texto passa por diferentes especialistas em camadas. - Os especialistas escolhidos também diferem entre os tokens. Mas como o modelo decide quais especialistas devem ser ideais? O roteador faz isso. Vamos discutir isso a seguir.
O roteador é como um classificador multiclasse que produz pontuações softmax sobre especialistas. Com base nas pontuações, selecionamos os principais especialistas K. O roteador é treinado com a rede e aprende a selecionar os melhores especialistas. Mas não é simples. Vamos discutir os desafios!
Desafio 1) Observe este padrão no início do treinamento: - O modelo seleciona "Expert 2" - O especialista fica um pouco melhor - Pode ser selecionado novamente - O especialista aprende mais - Ele é selecionado novamente - Aprende mais - E assim por diante! Muitos especialistas são mal treinados!
Resolvemos isso em duas etapas: - Adicione ruído à saída feed-forward do roteador para que outros especialistas possam obter logits mais altos. - Defina todos, exceto os top K logits, como -infinito. Após o softmax, essas pontuações se tornam zero. Dessa forma, outros especialistas também têm a oportunidade de treinar.
Desafio 2) Alguns especialistas podem ser expostos a mais tokens do que outros, levando a especialistas mal treinados. Evitamos isso limitando o número de tokens que um especialista pode processar. Se um especialista atingir o limite, o token de entrada será passado para o próximo melhor especialista.
Os MoEs têm mais parâmetros para carregar. No entanto, uma fração deles é ativada, pois selecionamos apenas alguns especialistas. Isso leva a uma inferência mais rápida. Mixtral 8x7B da @MistralAI é um LLM famoso baseado no MoE. Aqui está o visual novamente que compara Transformers e MoE!
Se você achou perspicaz, compartilhe novamente com sua rede. Encontre-me → @akshay_pachaar ✔️ Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!
Akshay 🚀
Akshay 🚀21 de jul. de 2025
Transformador vs. Mistura de Especialistas em LLMs, claramente explicado (com recursos visuais):
228,83K