Google lançou o Gemma 4 no Hugging Face: modelos multimodais para execução local
O Google DeepMind levou o Gemma 4 ao Hugging Face e apostou na execução local. A linha inclui quatro modelos multimodais: de E2B e E4B para dispositivos edge…
Processado por IA de Hugging Face Blog; editado por Hamidun News
A Google DeepMind divulgou a família Gemma 4 no Hugging Face, enfatizando não o tamanho máximo do modelo, mas uma combinação de poder, multimodalidade e a possibilidade de executar o modelo localmente. A linha inclui quatro versões: desde os compactos E2B e E4B para cenários de edge até 26B A4B e 31B para tarefas mais pesadas em estações de trabalho e hardware de servidor.
Que versões foram lançadas
O lançamento ocorreu em 2 de abril de 2026. O Hugging Face relata que Gemma 4 está disponível tanto em variantes base quanto em instrução, com toda a linha distribuída sob a licença Apache 2.0. Os dois modelos menores receberam uma janela de contexto de 128K, os dois maiores — 256K. Google e Hugging Face apresentam a série não apenas como modelos de chat, mas como base para cenários de agentes, assistentes locais e aplicações multimodais, onde trabalhar com texto, imagens, vídeo e, em algumas configurações, áudio é importante.
- Gemma 4 E2B — 2.3B efetivo, aproximadamente 5.1B com embeddings, contexto de 128K
- Gemma 4 E4B — 4.5B efetivo, aproximadamente 8B com embeddings, contexto de 128K
- Gemma 4 26B A4B — modelo MoE com 26B de parâmetros totais e aproximadamente 4B ativos, contexto de 256K
- Gemma 4 31B — modelo denso de 31B com contexto de 256K
De acordo com a Google, o modelo 31B ocupava a terceira posição entre modelos abertos no ranking de texto da Arena AI no momento do anúncio, enquanto 26B A4B ocupava a sexta. Para uma série projetada também para implantação local, esta é uma afirmação forte: Google está tentando competir não apenas na nuvem com Gemini, mas também no segmento de modelos abertos, onde o equilíbrio de qualidade, velocidade, memória, estabilidade em produção e flexibilidade de implantação importam.
O que Gemma 4 consegue fazer
O blog do Hugging Face enfatiza testes multimodais práticos. Os modelos podem trabalhar com OCR, reconhecimento de fala, detecção de objetos e identificação de coordenadas em imagens. Em um exemplo, Gemma 4 encontra um elemento de interface em uma captura de tela a partir de uma consulta em texto simples e imediatamente retorna caixas delimitadoras em JSON sem delimitadores de formato adicionais. Para desenvolvedores, isso é útil: menos código auxiliar em torno do modelo, montagem mais simples de agentes visuais e assistentes de interface.
Isto não é onde a lista termina. Gemma 4 é demonstrado em tarefas de restauração de página HTML a partir de imagens, em function calling apenas de texto e multimodal, bem como em correção e conclusão de código. Os modelos mais jovens E2B e E4B podem aceitar áudio e, em tarefas de vídeo, podem processar vídeos junto com faixas de áudio. Os mais antigos 26B A4B e 31B entendem vídeo sem áudio. De acordo com testes do Hugging Face, mesmo sem treinamento pós-específico em vídeo, os modelos lidam com confiança com a descrição do que está acontecendo e a legenda de imagens complexas.
Por que isso é prático
Tecnicamente, Gemma 4 é construída em torno de várias soluções que devem melhorar o desempenho em contexto longo e reduzir o custo de inferência. Entre elas estão alternância entre atenção local de janela deslizante e atenção global de contexto completo, configurações de RoPE separadas para diferentes camadas, Embeddings por Camada e cache KV compartilhado. Esta última técnica permite reutilizar estados de chave-valor entre camadas, economizando memória e computação, o que é especialmente importante para geração longa e execução em um dispositivo.
Outra vantagem prática é a amplitude do ecossistema já no dia do lançamento. Hugging Face anuncia suporte para transformers, llama.cpp, MLX, transformers.
js com WebGPU e Mistral.rs, enquanto TRL e Unsloth Studio estão disponíveis para ajuste fino. Isso significa que Gemma 4 não está presa a uma única pilha: o modelo pode ser rapidamente testado em um navegador, em um laptop, em Mac, em um agente local ou em um pipeline Python familiar.
Para o mercado de modelos abertos, isso não é mais um bônus agradável, mas uma condição necessária para implantação real.
O que isso significa
Gemma 4 demonstra para onde o mercado de IA aberto está se dirigindo em 2026: menos corrida pela contagem bruta de parâmetros e mais foco em multimodalidade, contexto longo e implantação local. Se a qualidade for confirmada em testes independentes e casos de produção, os desenvolvedores terão outro modelo fundamental forte para agentes, produtos offline e cenários corporativos onde privacidade de dados, latência e custo de inferência são mais importantes do que dependência de APIs na nuvem.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.