Google представила DiffusionGemma — модель с альтернативным подходом к генерации текста
Google выпустила DiffusionGemma — экспериментальную AI-модель, которая принципиально отличается от современных чат-ботов. Вместо привычного трансформерного подх
AI-обработка оригинала 3DNews AI; редакция Hamidun News
Google выпустила экспериментальную модель DiffusionGemma, которая демонстрирует принципиально иной подход к генерации текста по сравнению с моделями, лежащими в основе современных чат-ботов.
Как работают чат-боты сейчас
Современные AI-модели для текста (GPT, Claude, Gemini) используют архитектуру трансформера. Её принцип прост: модель обрабатывает текст слева направо и предсказывает следующее слово по одному. Это как писать текст в темноте — один символ за другим, без возможности переиграть предыдущие шаги. Эта схема работает безупречно и стала стандартом индустрии за последние три года. Но она имеет встроенное ограничение: модель не может вернуться и пересмотреть своё решение. После выдачи каждого токена контекст движется только вперёд. Если на 50-м токене модель уже сделала ошибку, она не сможет это исправить.
Диффузионный подход
DiffusionGemma DiffusionGemma использует совершенно другую логику — диффузионный процесс, который Google позаимствовала из генерации изображений. Там он давно показывает отличные результаты (DALL-E, Midjourney, Stable Diffusion работают именно так). В диффузионной модели всё происходит не последовательно, а итеративно. Модель начинает со случайного шума по всей длине текста одновременно. На первой итерации появляются грубые контуры смысла. На второй уточняются синтаксические структуры. На третьей добавляются стилистические детали. Это похоже на работу художника: сначала набросок углём, потом основные краски, потом светотень, потом финальные мазки. Ключевое отличие: на каждом шаге диффузионной генерации модель может пересмотреть и корректировать весь текст сразу, а не только выбирать очередное слово в конце.
Почему это теоретически лучше
На первый взгляд трансформерный подход выглядит эффективнее: почему делать несколько итераций, если можно генерировать за один проход? Но исследования показывают неожиданное. Диффузионный процесс даёт моделям два фундаментальных преимущества: Переоценка контекста — на каждой итерации модель может изменить решения, которые приняла ранее Параллелизм — обновление текста происходит по всей длине одновременно, а не токен за токеном Меньше внутренних противоречий — модель видит весь текст целиком и может логически согласовать разные части Новая исследовательская парадигма — открытый вопрос, какие архитектуры возможны в NLP На практике диффузионные модели могут работать быстрее на некоторых задачах благодаря параллелизму. Вместо того чтобы ждать токена N, перед тем как начать уточнять позиции N+1 до N+50, система может все их улучшать одновременно.
Статус: лаборатория, не продакшн DiffusionGemma — это не замена ChatGPT.
Это исследовательская модель, которую Google выпустила как open-source для экспериментов сообщества. Результаты пока отстают от трансформерных рекордсменов в стандартных бенчмарках. Но это первый серьёзный вызов монополии трансформерной архитектуры. Исследователи из Google отмечают особую перспективность диффузионного подхода для задач, требующих глубокой логической обработки: многошаговый вывод, сложные рассуждения, творческое письмо с внутренней согласованностью.
Что это значит
Google посылает ясный сигнал: парадигма «трансформер — единственный верный путь» неполна. Существуют альтернативные архитектуры, которые могут стать конкурентными и даже превосходящими в специфичных областях. Вероятный вектор развития — гибридные модели, комбинирующие трансформерную скорость с диффузионной способностью к глубокой переработке информации.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.