Zyphra выпустила первую MoE-модель диффузии с ускорением в 7.7x
Компания Zyphra представила ZAYA1-8B-Diffusion-Preview — первую в истории MoE-модель диффузии, конвертированную из обычной языковой модели. Главное достижение:

Компания Zyphra выпустила ZAYA1-8B-Diffusion-Preview — первую MoE-модель диффузии, которую удалось конвертировать из autoregressive языковой модели. Модель показывает, что такое преобразование возможно без потери качества, а инференс при этом ускоряется в 7.7 раза — значимый скачок для производительности.
Что произошло
Обычно языковые модели работают в режиме autoregression: генерируют слова последовательно, одно за одним. Это медленно, потому что каждый шаг зависит от предыдущего — нельзя распараллелить обработку. Zyphra переделала ZAYA — MoE-модель (Mixture of Experts), которая выбирает разные подсети нейронов для разных входных данных — в дискретную диффузионную модель. В диффузии логика генерации совсем другая: модель берёт шумное представление и последовательно его очищает, параллельно обрабатывая несколько слоёв вычислений. Идея не новая — диффузия работает хорошо для изображений и текста. Но переделать MoE-архитектуру из autoregressive парадигмы в диффузионную и при этом сохранить качество — это предыдущие попытки не удавались так чисто.
Почему это ускоряет Ключ — в том, какой ресурс GPU использует каждый режим.
Здесь важны две концепции: Memory-bandwidth bound задачи: читают много данных из памяти, обрабатывают мало. Autoregressive генерация — классический пример: держишь весь контекст, при каждом токене заново его грузишь, добавляешь новый токен, генерируешь следующий Compute-bound задачи: читают данные один раз, обрабатывают многократно. Диффузия — несколько итераций очистки одного и того же тензора, каждая итерация требует полного прохода через нейросеть * GPU архитектура: современные GPU растут быстрее в FLOPS (вычислительная мощь), чем в пропускной способности памяти. У тебя много вычислительных ядер, но они часто ждут, пока память подаст данные Переход ZAYA с memory-bound на compute-bound означает, что вычислительные ядра GPU работают ближе к максимальной нагрузке. Отсюда и 7.7x ускорение.
Метрики сохранились
Zyphra тестировала качество диффузионной версии против исходной autoregressive ZAYA1-8B. Оценки остались на том же уровне — модель не потеряла в способности генерировать текст, распознавать контекст, следовать инструкциям. Это не очевидно: часто при переходе между парадигмами падает хоть что-то. Здесь нет. Результат означает, что диффузионный подход и MoE-архитектура совместимы, а переконвертация не разрушает знания, которые модель накопила при обучении.
Что это значит MoE-диффузионные модели выходят из лабораторий в практические инструменты.
Для компаний это значит: можно взять существующую MoE-модель и получить 7-8x ускорение инференса без переобучения и без новых GPU.