Google DeepMind Gemma 4 появились на Amazon Bedrock: три модели с MoE и мультимодальностью
На Amazon Bedrock появились три модели Gemma 4 от Google DeepMind: Gemma 4 31B, Gemma 4 26B-A4B (MoE) и Gemma 4 E2B. Все распространяются под Apache 2.0 и…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
Amazon Bedrock adicionou três modelos da família Gemma 4, desenvolvida pelo Google DeepMind, ao seu catálogo — com pesos abertos, suporte a entrada multimodal e arquitetura MoE. Os modelos estão disponíveis via AWS API imediatamente após o anúncio.
Três opções para diferentes tarefas
Gemma 4 foi construída com ênfase em inteligência por parâmetro — máxima eficiência com requisitos computacionais mínimos. A família abrange duas abordagens arquitetônicas: modelos densos e MoE, onde apenas uma porção da rede neural é ativada por requisição. Três variantes instruction-tuned estão disponíveis no Amazon Bedrock:
- Gemma 4 31B — um modelo denso clássico com 31 bilhões de parâmetros, previsível em comportamento e conveniente para fine-tuning
- Gemma 4 26B-A4B — arquitetura MoE: 26B parâmetros no modelo, mas apenas 4B são ativados por requisição
- Gemma 4 E2B — uma variante leve para ambientes edge e com recursos limitados
Os três são distribuídos sob a licença Apache 2.0 — uso comercial sem restrições de volume ou contagem de requisições.
O que os modelos podem fazer fora da caixa
Todas as variantes Gemma 4 suportam entrada multimodal: texto e imagens podem ser passados em uma única requisição. Isso permite aplicações em análise de documentos, QA visual, processamento de capturas de tela e pipelines mistos onde diferentes tipos de dados precisam ser processados em uma única passagem.
Raciocínio integrado permite que o modelo tome passos intermediários antes de fornecer a resposta final. Isto é especialmente visível em tarefas matemáticas, lógicas e com múltiplas etapas complexas — a precisão melhora sem engenharia de prompt adicional.
Chamada de função nativa fornece integração direta com sistemas de agentes e ferramentas externas. Desenvolvedores não precisam inventar workarounds através de formatação de saída — o modelo chama funções nativamente.
Por que MoE importa na prática
Mixture-of-Experts é uma forma real de reduzir custos de inferência. Por requisição, apenas um conjunto de blocos "especialistas" especializados são ativados, não toda a rede neural. A carga computacional é como um modelo pequeno, qualidade como um grande. Para Gemma 4 26B-A4B isso significa: apesar de 26 bilhões de parâmetros, a inferência funciona na verdade com 4 bilhões. Em cenários de alto throughput onde o custo de cada token importa, isso é uma vantagem substancial sobre modelos densos equivalentes.
"A família foi projetada com foco em uma ampla gama de cenários de implantação", —
Google DeepMind ao descrever a arquitetura Gemma 4.
O que isso significa
Colocar Gemma 4 no Amazon Bedrock reduz a barreira de entrada para empresas do ecossistema AWS: em vez de implantar automaticamente pesos abertos — uma API pronta com infraestrutura gerenciada. Apache 2.0 também não restringe escalabilidade, tornando a família atraente para equipes de produto que valorizam previsibilidade em condições de licenciamento.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.