Google DeepMind Gemma 4 появились на Amazon Bedrock: три модели с MoE и мультимодальностью
На Amazon Bedrock появились три модели Gemma 4 от Google DeepMind: Gemma 4 31B, Gemma 4 26B-A4B (MoE) и Gemma 4 E2B. Все распространяются под Apache 2.0 и…
AI-обработка оригинала AWS Machine Learning Blog; редакция Hamidun News
Amazon Bedrock добавил в каталог три модели из семейства Gemma 4, разработанного Google DeepMind, — с открытыми весами, поддержкой мультимодального ввода и архитектурой MoE. Модели доступны через AWS API сразу же после объявления.
Три варианта для разных задач
Gemma 4 строилась с акцентом на интеллект в расчёте на параметр — максимальная эффективность при минимальных вычислительных требованиях. Семейство охватывает два архитектурных подхода: плотные (dense) модели и MoE, где при каждом запросе задействуется лишь часть нейросети. На Amazon Bedrock доступны три instruction-tuned варианта: Gemma 4 31B — классическая плотная модель с 31 млрд параметров, предсказуемая по поведению и удобная для дообучения Gemma 4 26B-A4B — MoE-архитектура: 26B параметров в модели, но на каждый запрос активируется только 4B * Gemma 4 E2B — облегчённый вариант для edge и ресурсоограниченных сред Все три распространяются под лицензией Apache 2.0 — коммерческое использование без ограничений по обороту или числу запросов.
Что умеют модели из коробки
Все варианты Gemma 4 поддерживают мультимодальный ввод: текст и изображения можно передавать в одном запросе. Это открывает применения в анализе документов, визуальном QA, обработке скриншотов и смешанных пайплайнах, где данные разных типов нужно обрабатывать за один проход. Встроенный reasoning позволяет модели делать промежуточные шаги перед финальным ответом. Особенно это заметно на сложных математических, логических и многоэтапных задачах — точность растёт без дополнительного prompt-инжиниринга. Нативный function calling даёт прямую интеграцию с агентными системами и внешними инструментами. Разработчикам не нужно изобретать обходные пути через форматирование вывода — модель вызывает функции нативно.
Почему MoE важна на практике Mixture-of-Experts — реальный способ снизить стоимость инференса.
При каждом запросе активируется только набор специализированных «экспертных» блоков, а не вся нейросеть целиком. Вычислительная нагрузка — как у небольшой модели, качество — как у крупной. Для Gemma 4 26B-A4B это означает: несмотря на 26 миллиардов параметров, инференс фактически работает с 4 миллиардами. В high-throughput сценариях, где стоимость каждого токена имеет значение, это существенное преимущество перед эквивалентными dense-моделями.
«Семейство создавалось с фокусом на широкий диапазон сценариев развёртывания», —
Google DeepMind в описании архитектуры Gemma 4.
Что это значит
Размещение Gemma 4 на Amazon Bedrock снижает порог входа для компаний из AWS-экосистемы: вместо самостоятельного развёртывания открытых весов — готовый API с управляемой инфраструктурой. Apache 2.0 при этом не ограничивает масштабирование, что делает семейство привлекательным для продуктовых команд, которым важна предсказуемость лицензионных условий.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.