Google released Gemma 4 on Hugging Face: multimodal models for local inference
Google DeepMind has brought Gemma 4 to Hugging Face and is betting on local inference. The lineup includes four multimodal models: from E2B and E4B for edge dev

Google DeepMind открыла семейство Gemma 4 на Hugging Face и сделала акцент не на максимальном размере, а на сочетании мощности, мультимодальности и возможности запускать модель локально. В линейке четыре версии: от компактных E2B и E4B для edge-сценариев до 26B A4B и 31B для более тяжёлых задач на рабочих станциях и серверном железе.
Какие версии вышли Релиз состоялся 2 апреля 2026 года.
Hugging Face пишет, что Gemma 4 доступна как базовыми, так и instruction-вариантами, а вся линейка распространяется по лицензии Apache 2.0. Две младшие модели получили окно контекста 128K, две старшие — 256K. При этом Google и Hugging Face подают серию не просто как чат-модели, а как основу для агентных сценариев, локальных ассистентов и мультимодальных приложений, где важно работать с текстом, изображением, видео и, в части конфигураций, с аудио.
- Gemma 4 E2B — effective 2.3B, около 5.1B с эмбеддингами, контекст 128K Gemma 4 E4B — effective 4.5B, около 8B с эмбеддингами, контекст 128K Gemma 4 26B A4B — MoE-модель с 26B общих параметров и примерно 4B активных, контекст 256K * Gemma 4 31B — плотная 31B-модель с контекстом 256K По данным Google, 31B-модель на момент анонса занимала третье место среди открытых моделей в текстовом рейтинге Arena AI, а 26B A4B — шестое. Для серии, рассчитанной в том числе на локальный запуск, это сильная заявка: Google пытается конкурировать не только в облаке с Gemini, но и в сегменте open-моделей, где важны баланс качества, скорости, памяти, устойчивость в продакшене и гибкость развёртывания.
Что умеет Gemma 4 В блоге Hugging Face упор сделан на практические мультимодальные тесты.
Модели умеют работать с OCR, распознаванием речи, детекцией объектов и указанием координат на изображении. В одном из примеров Gemma 4 по обычному текстовому запросу находит элемент интерфейса на скриншоте и сразу возвращает bounding boxes в JSON без дополнительных ограничителей формата. Для разработчиков это полезно: меньше обвязки вокруг модели, проще собирать визуальных агентов и интерфейсных помощников.
На этом список не заканчивается. Gemma 4 показывают в задачах по восстановлению HTML-страницы по изображению, в text-only и multimodal function calling, а также в исправлении и дополнении кода. Младшие E2B и E4B умеют принимать аудио, а в видео-задачах могут обрабатывать ролики вместе со звуковой дорожкой.
Старшие 26B A4B и 31B понимают видео без аудио. По тестам Hugging Face, даже без отдельного посттренинга на видео модели уверенно справляются с описанием происходящего и подписью к сложным изображениям.
Почему это практично
Технически Gemma 4 собрана вокруг нескольких решений, которые должны улучшить работу на длинном контексте и снизить цену инференса. Среди них — чередование локального sliding-window attention и глобального full-context attention, отдельные конфигурации RoPE для разных слоёв, Per-Layer Embeddings и shared KV cache. Последняя техника позволяет повторно использовать key-value состояния в части слоёв и экономить память и вычисления, что особенно важно для долгой генерации и запуска на устройстве.
Ещё один практический плюс — ширина экосистемы уже в день релиза. Hugging Face заявляет поддержку transformers, llama.cpp, MLX, transformers.
js с WebGPU и Mistral.rs, а для дообучения доступны TRL и Unsloth Studio. Это значит, что Gemma 4 не запирают в одном стеке: модель можно быстро попробовать в браузере, на ноутбуке, на Mac, в локальном агенте или в привычном Python-пайплайне.
Для рынка open-моделей это уже не приятный бонус, а обязательное условие для реального внедрения.
Что это значит
Gemma 4 показывает, куда движется открытый AI-рынок в 2026 году: меньше гонки за голым числом параметров и больше внимания к мультимодальности, длинному контексту и локальному запуску. Если качество подтвердится в независимых тестах и продакшен-кейсах, у разработчиков появится ещё одна сильная базовая модель для агентов, офлайн-продуктов и корпоративных сценариев, где данные, задержка и стоимость инференса важнее, чем привязка к облачному API.