Модели

Смесь экспертов (MoE)

Смесь экспертов (MoE) — архитектура нейросети, где каждый входной токен обрабатывается только подмножеством специализированных подсетей («экспертов»), а не всеми параметрами модели. Это позволяет увеличивать общее число параметров без пропорционального роста вычислительных затрат на вывод.

Смесь экспертов (Mixture of Experts, MoE) — подход к построению нейросетей, при котором модель состоит из множества параллельных подсетей-«экспертов» и маршрутизирующего механизма («гейтинга»). В отличие от стандартного трансформера, где каждый токен проходит через все веса, в MoE-архитектуре для каждого токена активируется лишь небольшое фиксированное число экспертов — как правило, 2 из 8, 16 или более. Остальные параметры остаются «спящими» и не участвуют в вычислениях данного токена.

Гейтинговая сеть принимает векторное представление токена и вычисляет «рейтинг» каждого эксперта, выбирая top-k наиболее релевантных. Ключевая инженерная сложность — балансировка нагрузки: без специальных ограничений гейтинг коллапсирует в использование одних и тех же нескольких экспертов, тогда как остальные деградируют. Для предотвращения этого вводят вспомогательные функции потерь, равномерно распределяющие токены между экспертами. Эффективная реализация MoE требует тщательной оркестрации межузловой коммуникации при распределённом обучении на тысячах GPU.

MoE позволяет обойти линейную зависимость между числом параметров и вычислительными затратами на инференс. Модель Mixtral 8x7B (Mistral AI, декабрь 2023) при суммарных ~47 миллиардах параметров активирует лишь около 13 миллиардов на каждый токен: скорость вывода сопоставима с плотной 13B-моделью, тогда как качество приближается к значительно более крупным плотным системам. Это делает MoE особенно привлекательными для масштабирования за пределы сотен миллиардов параметров.

К 2026 году MoE-архитектура стала стандартом для самых крупных моделей. По широко распространённым, но официально не подтверждённым данным, GPT-4 построен на MoE. Gemini 1.5 Pro (Google), поддерживающая контекстное окно до миллиона токенов, также использует MoE-архитектуру. DeepSeek-V3 (671B суммарных параметров, ~37B активных на токен, декабрь 2024) показал, что открытые MoE-модели способны конкурировать с ведущими закрытыми системами по качеству при значительно меньших затратах на вывод.

Пример

Облачный провайдер развёртывает MoE-модель с 200 миллиардами суммарных параметров: реально задействуется лишь 20–25 миллиардов на каждый запрос, что снижает стоимость инференса в несколько раз по сравнению с плотной моделью аналогичного качества.

Связанные термины

Трансформер Большая языковая модель (LLM)Инференс Законы масштабирования

← Глоссарий