Modelos

Mezcla de Expertos (MoE)

Mezcla de Expertos (MoE) es una arquitectura de red neuronal donde un mecanismo de enrutamiento aprendido activa solo un pequeño subconjunto de subredes especializadas (expertos) para cada token de entrada, permitiendo recuentos de parámetros grandes sin costo de cómputo proporcional por token.

Mezcla de Expertos (MoE) es un diseño de red neuronal en el cual el modelo contiene un gran conjunto de subredes paralelas llamadas expertos, y un mecanismo ligero de compuerta o enrutamiento selecciona solo un pequeño número de ellos—comúnmente uno o dos—para procesar cada token de entrada. Porque solo una fracción de los parámetros totales del modelo está activa durante cualquier paso hacia adelante dado, un modelo MoE puede codificar sustancialmente más conocimiento que un modelo denso de mismo cómputo. El concepto se origina en trabajo de Jacobs et al. en 1991, y fue adaptado a transformers a gran escala en el artículo Sparsely-Gated MoE de Google (2017) y el Switch Transformer (2021).

En una capa MoE de transformer estándar, cada bloque de red feed-forward es reemplazado por un conjunto de N redes feed-forward de experto. Una red enrutadora—una pequeña capa lineal—examina la representación de cada token y genera puntuaciones sobre todos los expertos; los k expertos principales (típicamente k=1 o k=2) son seleccionados, sus salidas se calculan, y se devuelve una suma ponderada. Términos de pérdida auxiliar penalizan enrutamiento desigual para prevenir que todos los tokens colapsen en el mismo experto popular, una patología llamada colapso de experto. Durante el entrenamiento, los gradientes fluyen solo a través de los expertos seleccionados para cada token, así que el costo efectivo de actualización de parámetros se escala con k en lugar de N. Los principales desafíos de ingeniería son equilibrio de carga entre expertos y, en entrenamiento distribuido, la comunicación all-to-all requerida cuando los expertos residen en aceleradores diferentes.

MoE importa porque desacopla la capacidad del modelo del costo de cómputo por token. Un modelo denso debe activar todos sus parámetros para cada token; un modelo MoE enruta diferentes tipos de entrada a diferentes especialistas, logrando tanto escala como eficiencia. Una ilustración útil: Mixtral 8x7B de Mistral tiene aproximadamente 47 mil millones de parámetros totales pero activa aproximadamente 13 mil millones por token, entregando rendimiento comparable a modelos densos el doble de su tamaño activo a cómputo de inferencia similar. Este compromiso es particularmente atractivo a escala de servicio, donde latencia por token y ancho de banda de memoria son los principales impulsores de costo.

Para 2026, MoE se ha convertido en una arquitectura de producción convencional en familias de modelos. Mixtral 8x7B y 8x22B de Mistral AI (lanzados a finales de 2023 e inicios de 2024) popularizaron MoE de pesos abiertos. Se informa que Gemini 1.5 Pro y Flash de Google utilizan MoE, y reportaje creíble indica que GPT-4 también emplea un diseño de mezcla de expertos. Los modelos Scout y Maverick de LLaMA 4 de Meta (lanzados a inicios de 2026) son arquitecturas MoE con 17 mil millones de parámetros activos fuera de recuentos totales mucho más grandes. Variantes como mezcla-de-profundidades—que saltan capas de transformer completamente para tokens fáciles—extienden el principio de cómputo condicional más allá solo del bloque feed-forward.

Ejemplo

Un desarrollador que despliega Mixtral 8x7B sirve inferencia a aproximadamente el costo de un modelo denso de 13 mil millones de parámetros mientras se beneficia de una base de conocimiento de 47 mil millones de parámetros, porque el enrutador MoE activa solo dos de ocho expertos por token.

Términos relacionados

Transformer Modelo de lenguaje grande (LLM)Inferencia Leyes de Escalado

← Glosario