@demishassabis→ оригинал

Google DeepMind выпустила DiffusionGemma — диффузионную LLM в 4 раза быстрее Gemma 4

Google DeepMind анонсировала DiffusionGemma — языковую модель нового класса, использующую диффузионный принцип вместо авторегрессии. Она работает в 4 раза…

AI-обработка оригинала @demishassabis; редакция Hamidun News
Google DeepMind выпустила DiffusionGemma — диффузионную LLM в 4 раза быстрее Gemma 4
Источник: @demishassabis. Коллаж: Hamidun News.
◐ Слушать статью

Google DeepMind представила DiffusionGemma — языковую модель нового класса, которая применяет диффузионный принцип генерации текста вместо стандартного авторегрессивного подхода. По данным команды, модель работает в 4 раза быстрее любой другой модели из семейства Gemma 4 при сопоставимом качестве.

Как работает диффузионная LLM

Классические языковые модели — GPT, Llama, Gemma — генерируют текст последовательно: токен за токеном, слева направо. Для получения 500 токенов нужно 500 последовательных шагов вывода. Это фундаментальное ограничение архитектуры: каждый следующий токен зависит от всех предыдущих, поэтому параллелизм невозможен по самой природе авторегрессии. Диффузионный подход устроен иначе. Та же идея, что лежит в основе Stable Diffusion и DALL-E для изображений, теперь применена к тексту: модель обучается восстанавливать исходный текст из случайного шума, постепенно уточняя всю последовательность целиком — не слева направо, а итерационно, параллельно по всем позициям сразу.

  • Авторегрессия: 500 токенов требуют 500 последовательных шагов Диффузия: 500 токенов обрабатываются за 10–50 шагов независимо от длины Прирост скорости нелинейный — чем длиннее текст, тем ощутимее преимущество Диффузию для текстовой генерации пытались освоить многие команды ещё с 2021 года. Главная проблема — качество: диффузионные текстовые модели долго проигрывали авторегрессивным, тексты теряли связность и точность формулировок. Судя по заявлению Хасабиса, DiffusionGemma преодолела этот барьер.

Демис Хасабис объявил лично О результате объявил сам CEO Google DeepMind — это нетипично.

Руководители такого уровня обычно продвигают целые продукты или стратегические направления, но редко выделяют конкретные архитектурные решения в отдельный повод для поздравления. Хасабис лично поздравил исследователя Брайана О'Донохью и всю команду, назвав разработку «молниеносной».

«Отличная инновация в области текстовой диффузии.

DiffusionGemma молниеносна — в 4 раза быстрее других моделей Gemma 4. Не терпится посмотреть, что люди будут с ней строить!» — Демис Хасабис Важный контекст: речь идёт не о сравнении с устаревшими бенчмарками, а с актуальным семейством Gemma 4, которое само по себе считается одним из наиболее эффективных в классе открытых моделей. Четырёхкратный прирост к такому базовому уровню — весомый архитектурный результат.

Экономика инференса меняется

Скорость генерации определяет как стоимость API, так и latency конечного продукта. Если DiffusionGemma генерирует в 4 раза быстрее при сопоставимом качестве, это открывает ряд практических возможностей: Снижение себестоимости инференса — меньше GPU-времени на один ответ Длинные контексты без экспоненциального роста задержек Конкурентоспособность в latency-чувствительных сценариях: чат-боты, автодополнение, агентные пайплайны Потенциал для унификации с диффузионной генерацией изображений и аудио Мультимодальная синергия особенно интересна: если объединить текстовую диффузию с уже зрелыми подходами для изображений и звука, появляется единая архитектура, обрабатывающая все модальности одним принципом. Google уже движется в этом направлении с серией Gemini — DiffusionGemma выглядит как первый шаг к полноценной диффузионной мультимодальности.

Что это значит Диффузионные LLM перестали быть академическим экспериментом.

Когда CEO одной из крупнейших AI-лабораторий мира лично анонсирует архитектурный прорыв, рынок реагирует. Если скоростные показатели DiffusionGemma подтвердятся в независимых тестах, это может изменить ценообразование на рынке LLM-инференса и заставить конкурентов форсировать собственные диффузионные разработки. Разработчикам, которые ещё не изучили эту архитектуру, — сейчас самое время.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…