Hugging Face Blog→ original

Google lançou o Gemma 4 no Hugging Face: modelos multimodais para execução local

O Google DeepMind levou o Gemma 4 ao Hugging Face e apostou na execução local. A linha inclui quatro modelos multimodais: de E2B e E4B para dispositivos edge…

Processado por IA de Hugging Face Blog; editado por Hamidun News
Google lançou o Gemma 4 no Hugging Face: modelos multimodais para execução local
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A Google DeepMind divulgou a família Gemma 4 no Hugging Face, enfatizando não o tamanho máximo do modelo, mas uma combinação de poder, multimodalidade e a possibilidade de executar o modelo localmente. A linha inclui quatro versões: desde os compactos E2B e E4B para cenários de edge até 26B A4B e 31B para tarefas mais pesadas em estações de trabalho e hardware de servidor.

Que versões foram lançadas

O lançamento ocorreu em 2 de abril de 2026. O Hugging Face relata que Gemma 4 está disponível tanto em variantes base quanto em instrução, com toda a linha distribuída sob a licença Apache 2.0. Os dois modelos menores receberam uma janela de contexto de 128K, os dois maiores — 256K. Google e Hugging Face apresentam a série não apenas como modelos de chat, mas como base para cenários de agentes, assistentes locais e aplicações multimodais, onde trabalhar com texto, imagens, vídeo e, em algumas configurações, áudio é importante.

  • Gemma 4 E2B — 2.3B efetivo, aproximadamente 5.1B com embeddings, contexto de 128K
  • Gemma 4 E4B — 4.5B efetivo, aproximadamente 8B com embeddings, contexto de 128K
  • Gemma 4 26B A4B — modelo MoE com 26B de parâmetros totais e aproximadamente 4B ativos, contexto de 256K
  • Gemma 4 31B — modelo denso de 31B com contexto de 256K

De acordo com a Google, o modelo 31B ocupava a terceira posição entre modelos abertos no ranking de texto da Arena AI no momento do anúncio, enquanto 26B A4B ocupava a sexta. Para uma série projetada também para implantação local, esta é uma afirmação forte: Google está tentando competir não apenas na nuvem com Gemini, mas também no segmento de modelos abertos, onde o equilíbrio de qualidade, velocidade, memória, estabilidade em produção e flexibilidade de implantação importam.

O que Gemma 4 consegue fazer

O blog do Hugging Face enfatiza testes multimodais práticos. Os modelos podem trabalhar com OCR, reconhecimento de fala, detecção de objetos e identificação de coordenadas em imagens. Em um exemplo, Gemma 4 encontra um elemento de interface em uma captura de tela a partir de uma consulta em texto simples e imediatamente retorna caixas delimitadoras em JSON sem delimitadores de formato adicionais. Para desenvolvedores, isso é útil: menos código auxiliar em torno do modelo, montagem mais simples de agentes visuais e assistentes de interface.

Isto não é onde a lista termina. Gemma 4 é demonstrado em tarefas de restauração de página HTML a partir de imagens, em function calling apenas de texto e multimodal, bem como em correção e conclusão de código. Os modelos mais jovens E2B e E4B podem aceitar áudio e, em tarefas de vídeo, podem processar vídeos junto com faixas de áudio. Os mais antigos 26B A4B e 31B entendem vídeo sem áudio. De acordo com testes do Hugging Face, mesmo sem treinamento pós-específico em vídeo, os modelos lidam com confiança com a descrição do que está acontecendo e a legenda de imagens complexas.

Por que isso é prático

Tecnicamente, Gemma 4 é construída em torno de várias soluções que devem melhorar o desempenho em contexto longo e reduzir o custo de inferência. Entre elas estão alternância entre atenção local de janela deslizante e atenção global de contexto completo, configurações de RoPE separadas para diferentes camadas, Embeddings por Camada e cache KV compartilhado. Esta última técnica permite reutilizar estados de chave-valor entre camadas, economizando memória e computação, o que é especialmente importante para geração longa e execução em um dispositivo.

Outra vantagem prática é a amplitude do ecossistema já no dia do lançamento. Hugging Face anuncia suporte para transformers, llama.cpp, MLX, transformers.

js com WebGPU e Mistral.rs, enquanto TRL e Unsloth Studio estão disponíveis para ajuste fino. Isso significa que Gemma 4 não está presa a uma única pilha: o modelo pode ser rapidamente testado em um navegador, em um laptop, em Mac, em um agente local ou em um pipeline Python familiar.

Para o mercado de modelos abertos, isso não é mais um bônus agradável, mas uma condição necessária para implantação real.

O que isso significa

Gemma 4 demonstra para onde o mercado de IA aberto está se dirigindo em 2026: menos corrida pela contagem bruta de parâmetros e mais foco em multimodalidade, contexto longo e implantação local. Se a qualidade for confirmada em testes independentes e casos de produção, os desenvolvedores terão outro modelo fundamental forte para agentes, produtos offline e cenários corporativos onde privacidade de dados, latência e custo de inferência são mais importantes do que dependência de APIs na nuvem.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…