MarkTechPost→ оригинал

Google DeepMind открыла DiffusionGemma — 26B MoE-модель с генерацией в 4 раза быстрее

Google DeepMind открыла экспериментальную модель DiffusionGemma — 26-миллиардный MoE, который генерирует текст через диффузию, а не пошаговую авторегрессию…

AI-обработка оригинала MarkTechPost; редакция Hamidun News
Google DeepMind открыла DiffusionGemma — 26B MoE-модель с генерацией в 4 раза быстрее
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

Google DeepMind выпустила DiffusionGemma — экспериментальную открытую языковую модель на 26 миллиардов параметров, которая использует диффузию текста вместо привычной авторегрессивной генерации. На GPU она работает до четырёх раз быстрее стандартных подходов.

Что такое диффузия текста

Большинство современных языковых моделей генерируют текст токен за токеном слева направо — так работают GPT-4, Gemini, Llama и практически все крупные LLM. Это надёжно и хорошо изучено, но у такого подхода есть фундаментальное ограничение: скорость вывода линейно зависит от длины ответа. Чем длиннее текст — тем дольше ожидание, тем выше затраты на GPU.

DiffusionGemma работает иначе. Модель начинает с зашумлённого или маскированного вывода и итеративно уточняет его, пока не получается связный текст — по аналогии с тем, как диффузионные модели вроде Stable Diffusion генерируют изображения. Ключевое отличие от авторегрессии — параллельность: вместо строгой последовательности диффузионный декодер может работать сразу по всему контексту.

Именно это и даёт кратный прирост скорости на современных GPU. Исследования диффузии текста велись несколько лет, однако до сих пор масштабных открытых моделей этого класса практически не существовало. DiffusionGemma — один из первых серьёзных публичных экспериментов такого масштаба от крупной лаборатории, и уже поэтому заслуживает внимания.

Архитектура: 26B с MoE DiffusionGemma построена на архитектуре Mixture of Experts (MoE).

В отличие от «плотных» моделей, где все параметры задействованы при каждом запросе, MoE активирует лишь подмножество экспертных блоков — в зависимости от входных данных. Это позволяет иметь большое число параметров при относительно низких вычислительных затратах на инференс. Ключевые характеристики модели: 26B параметров суммарно (MoE-архитектура) При инференсе активируется только часть параметров Текстовая диффузия вместо авторегрессии До 4× ускорение генерации на GPU Открытый доступ для исследователей Экспериментальный статус — не продуктовый релиз Сочетание MoE и диффузии — нетривиальная архитектурная ставка. MoE снижает нагрузку со стороны числа задействованных параметров, диффузия — со стороны числа шагов генерации. В теории оба улучшения работают совместно.

Почему это меняет расклад

Скорость вывода — одна из главных практических проблем крупных языковых моделей. Для конечного пользователя долгий ответ раздражает. Для провайдеров инференса это прямые расходы на GPU-время, которые напрямую влияют на себестоимость сервиса. Текущие решения — квантизация, speculative decoding, оптимизированные ядра — дают прирост на уровне 1.5–2×. DiffusionGemma заявляет 4×, причём за счёт принципиально иного механизма генерации. Если это воспроизводится в реальных условиях, речь идёт о смене подхода, а не об оптимизации. Google DeepMind публикует модель в открытом доступе как исследовательский артефакт. Это даёт академическому сообществу возможность изучить диффузионный текстовый декодер масштаба 26B. Вопрос о продуктовой версии на основе этой архитектуры пока остаётся открытым.

Что это значит

DiffusionGemma — сигнал того, что авторегрессия перестаёт быть единственной рабочей парадигмой языкового моделирования. Если диффузионный подход масштабируется без деградации качества, скорость ответов AI-инструментов может вырасти кратно — без пропорционального роста затрат на инфраструктуру. За тем, как сообщество будет исследовать и бенчмаркить модель, стоит следить в ближайшие месяцы.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…