AWS Machine Learning Blog→ оригинал

Google DeepMind Gemma 4 появились на Amazon Bedrock: три модели с MoE и мультимодальностью

На Amazon Bedrock появились три модели Gemma 4 от Google DeepMind: Gemma 4 31B, Gemma 4 26B-A4B (MoE) и Gemma 4 E2B. Все распространяются под Apache 2.0 и…

AI-обработка оригинала AWS Machine Learning Blog; редакция Hamidun News
Google DeepMind Gemma 4 появились на Amazon Bedrock: три модели с MoE и мультимодальностью
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

Amazon Bedrock добавил в каталог три модели из семейства Gemma 4, разработанного Google DeepMind, — с открытыми весами, поддержкой мультимодального ввода и архитектурой MoE. Модели доступны через AWS API сразу же после объявления.

Три варианта для разных задач

Gemma 4 строилась с акцентом на интеллект в расчёте на параметр — максимальная эффективность при минимальных вычислительных требованиях. Семейство охватывает два архитектурных подхода: плотные (dense) модели и MoE, где при каждом запросе задействуется лишь часть нейросети. На Amazon Bedrock доступны три instruction-tuned варианта: Gemma 4 31B — классическая плотная модель с 31 млрд параметров, предсказуемая по поведению и удобная для дообучения Gemma 4 26B-A4B — MoE-архитектура: 26B параметров в модели, но на каждый запрос активируется только 4B * Gemma 4 E2B — облегчённый вариант для edge и ресурсоограниченных сред Все три распространяются под лицензией Apache 2.0 — коммерческое использование без ограничений по обороту или числу запросов.

Что умеют модели из коробки

Все варианты Gemma 4 поддерживают мультимодальный ввод: текст и изображения можно передавать в одном запросе. Это открывает применения в анализе документов, визуальном QA, обработке скриншотов и смешанных пайплайнах, где данные разных типов нужно обрабатывать за один проход. Встроенный reasoning позволяет модели делать промежуточные шаги перед финальным ответом. Особенно это заметно на сложных математических, логических и многоэтапных задачах — точность растёт без дополнительного prompt-инжиниринга. Нативный function calling даёт прямую интеграцию с агентными системами и внешними инструментами. Разработчикам не нужно изобретать обходные пути через форматирование вывода — модель вызывает функции нативно.

Почему MoE важна на практике Mixture-of-Experts — реальный способ снизить стоимость инференса.

При каждом запросе активируется только набор специализированных «экспертных» блоков, а не вся нейросеть целиком. Вычислительная нагрузка — как у небольшой модели, качество — как у крупной. Для Gemma 4 26B-A4B это означает: несмотря на 26 миллиардов параметров, инференс фактически работает с 4 миллиардами. В high-throughput сценариях, где стоимость каждого токена имеет значение, это существенное преимущество перед эквивалентными dense-моделями.

«Семейство создавалось с фокусом на широкий диапазон сценариев развёртывания», —

Google DeepMind в описании архитектуры Gemma 4.

Что это значит

Размещение Gemma 4 на Amazon Bedrock снижает порог входа для компаний из AWS-экосистемы: вместо самостоятельного развёртывания открытых весов — готовый API с управляемой инфраструктурой. Apache 2.0 при этом не ограничивает масштабирование, что делает семейство привлекательным для продуктовых команд, которым важна предсказуемость лицензионных условий.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…