Zyphra выпустила первую MoE-модель диффузии с ускорением в 7.7x

Q: Источник материала?

Оригинальная публикация на MarkTechPost. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-16. Время чтения: 3 мин.

Компания Zyphra представила ZAYA1-8B-Diffusion-Preview — первую в истории MoE-модель диффузии, конвертированную из обычной языковой модели. Главное достижение:

ЖХ

Редакция Hamidun News

AI‑мониторинг · MarkTechPost

2026-05-16· 3 мин

Zyphra выпустила первую MoE-модель диффузии с ускорением в 7.7x — Источник: MarkTechPost. Коллаж: Hamidun News.

◐ Слушать статью

Компания Zyphra выпустила ZAYA1-8B-Diffusion-Preview — первую MoE-модель диффузии, которую удалось конвертировать из autoregressive языковой модели. Модель показывает, что такое преобразование возможно без потери качества, а инференс при этом ускоряется в 7.7 раза — значимый скачок для производительности.

Что произошло

Обычно языковые модели работают в режиме autoregression: генерируют слова последовательно, одно за одним. Это медленно, потому что каждый шаг зависит от предыдущего — нельзя распараллелить обработку. Zyphra переделала ZAYA — MoE-модель (Mixture of Experts), которая выбирает разные подсети нейронов для разных входных данных — в дискретную диффузионную модель. В диффузии логика генерации совсем другая: модель берёт шумное представление и последовательно его очищает, параллельно обрабатывая несколько слоёв вычислений. Идея не новая — диффузия работает хорошо для изображений и текста. Но переделать MoE-архитектуру из autoregressive парадигмы в диффузионную и при этом сохранить качество — это предыдущие попытки не удавались так чисто.

Почему это ускоряет Ключ — в том, какой ресурс GPU использует каждый режим.

Здесь важны две концепции: Memory-bandwidth bound задачи: читают много данных из памяти, обрабатывают мало. Autoregressive генерация — классический пример: держишь весь контекст, при каждом токене заново его грузишь, добавляешь новый токен, генерируешь следующий Compute-bound задачи: читают данные один раз, обрабатывают многократно. Диффузия — несколько итераций очистки одного и того же тензора, каждая итерация требует полного прохода через нейросеть * GPU архитектура: современные GPU растут быстрее в FLOPS (вычислительная мощь), чем в пропускной способности памяти. У тебя много вычислительных ядер, но они часто ждут, пока память подаст данные Переход ZAYA с memory-bound на compute-bound означает, что вычислительные ядра GPU работают ближе к максимальной нагрузке. Отсюда и 7.7x ускорение.

Метрики сохранились

Zyphra тестировала качество диффузионной версии против исходной autoregressive ZAYA1-8B. Оценки остались на том же уровне — модель не потеряла в способности генерировать текст, распознавать контекст, следовать инструкциям. Это не очевидно: часто при переходе между парадигмами падает хоть что-то. Здесь нет. Результат означает, что диффузионный подход и MoE-архитектура совместимы, а переконвертация не разрушает знания, которые модель накопила при обучении.

Что это значит MoE-диффузионные модели выходят из лабораторий в практические инструменты.

Для компаний это значит: можно взять существующую MoE-модель и получить 7-8x ускорение инференса без переобучения и без новых GPU.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com