Modelos

Mixture of Experts (MoE)

Mixture of Experts (MoE) é uma arquitetura de rede neural onde um mecanismo de roteamento aprendido ativa apenas um pequeno subconjunto de sub-redes especializadas (experts) para cada token de entrada, permitindo grandes contagens de parâmetros totais sem custo de computação proporcional por token.

Mixture of Experts (MoE) é um design de rede neural no qual o modelo contém um grande conjunto de sub-redes paralelas chamadas experts, e um mecanismo de gating ou roteamento leve seleciona apenas um pequeno número delas—comumente um ou dois—para processar cada token de entrada. Porque apenas uma fração dos parâmetros totais do modelo está ativa durante qualquer passagem direta, um modelo MoE pode codificar substancialmente mais conhecimento do que um modelo denso com o mesmo compute. O conceito se origina no trabalho de Jacobs et al. em 1991, e foi adaptado para transformers em grande escala no artigo Sparsely-Gated MoE do Google (2017) e no Switch Transformer (2021).

Em uma camada MoE de transformer padrão, cada bloco de rede feed-forward é substituído por um conjunto de N redes feed-forward de experts. Uma rede roteadora—uma pequena camada linear—examina a representação de cada token e emite scores sobre todos os experts; os top-k experts (tipicamente k=1 ou k=2) são selecionados, seus outputs são computados e uma soma ponderada é retornada. Termos de loss auxiliar penalizam roteamento desigual para prevenir que todos os tokens colapsem no mesmo expert popular, uma patologia chamada expert collapse. Durante o treinamento, gradientes fluem apenas através dos experts selecionados para cada token, então o custo efetivo de atualização de parâmetro escala com k em vez de N. Os principais desafios de engenharia são balanceamento de carga entre experts e, no treinamento distribuído, a comunicação all-to-all exigida quando experts residem em diferentes aceleradores.

MoE importa porque desacopla a capacidade do modelo do custo de computação por token. Um modelo denso deve engajar todos os seus parâmetros para cada token; um modelo MoE roteia diferentes tipos de entrada para diferentes especialistas, alcançando tanto escala quanto eficiência. Uma ilustração útil: o Mixtral 8x7B da Mistral tem aproximadamente 47 bilhões de parâmetros totais, mas ativa aproximadamente 13 bilhões por token, fornecendo desempenho comparável ao de modelos densos duas vezes seu tamanho ativo com computação de inferência similar. Este trade-off é particularmente atrativo em escala de serving, onde latência por token e largura de banda de memória são os drivers de custo primários.

Em 2026, MoE tornou-se uma arquitetura de produção mainstream entre famílias de modelos. Os Mixtral 8x7B e 8x22B da Mistral AI (lançados no final de 2023 e início de 2024) popularizaram MoE de pesos abertos. Gemini 1.5 Pro e Flash do Google são relatados como usando MoE, e relatos credíveis indicam que GPT-4 também emprega um design mixture-of-experts. Os modelos LLaMA 4 Scout e Maverick do Meta (lançados no início de 2026) são arquiteturas MoE com 17 bilhões de parâmetros ativos de contagens totais muito maiores. Variantes como mixture-of-depths—que pulam camadas de transformer inteiramente para tokens fáceis—estendem o princípio de computação condicional além apenas do bloco feed-forward.

Exemplo

Um desenvolvedor fazendo deploy do Mixtral 8x7B serve inferência aproximadamente pelo custo de um modelo denso de 13 bilhões de parâmetros enquanto se beneficia de uma base de conhecimento de 47 bilhões de parâmetros, porque o roteador MoE ativa apenas dois de oito experts por token.

Termos relacionados

Transformer Grande Modelo de Linguagem (LLM)Inferência Leis de Scaling

← Glossário