AWS Machine Learning Blog→ original

Google DeepMind Gemma 4 появились на Amazon Bedrock: три модели с MoE и мультимодальностью

На Amazon Bedrock появились три модели Gemma 4 от Google DeepMind: Gemma 4 31B, Gemma 4 26B-A4B (MoE) и Gemma 4 E2B. Все распространяются под Apache 2.0 и…

Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
Google DeepMind Gemma 4 появились на Amazon Bedrock: три модели с MoE и мультимодальностью
Fonte: AWS Machine Learning Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Amazon Bedrock adicionou três modelos da família Gemma 4, desenvolvida pelo Google DeepMind, ao seu catálogo — com pesos abertos, suporte a entrada multimodal e arquitetura MoE. Os modelos estão disponíveis via AWS API imediatamente após o anúncio.

Três opções para diferentes tarefas

Gemma 4 foi construída com ênfase em inteligência por parâmetro — máxima eficiência com requisitos computacionais mínimos. A família abrange duas abordagens arquitetônicas: modelos densos e MoE, onde apenas uma porção da rede neural é ativada por requisição. Três variantes instruction-tuned estão disponíveis no Amazon Bedrock:

  • Gemma 4 31B — um modelo denso clássico com 31 bilhões de parâmetros, previsível em comportamento e conveniente para fine-tuning
  • Gemma 4 26B-A4B — arquitetura MoE: 26B parâmetros no modelo, mas apenas 4B são ativados por requisição
  • Gemma 4 E2B — uma variante leve para ambientes edge e com recursos limitados

Os três são distribuídos sob a licença Apache 2.0 — uso comercial sem restrições de volume ou contagem de requisições.

O que os modelos podem fazer fora da caixa

Todas as variantes Gemma 4 suportam entrada multimodal: texto e imagens podem ser passados em uma única requisição. Isso permite aplicações em análise de documentos, QA visual, processamento de capturas de tela e pipelines mistos onde diferentes tipos de dados precisam ser processados em uma única passagem.

Raciocínio integrado permite que o modelo tome passos intermediários antes de fornecer a resposta final. Isto é especialmente visível em tarefas matemáticas, lógicas e com múltiplas etapas complexas — a precisão melhora sem engenharia de prompt adicional.

Chamada de função nativa fornece integração direta com sistemas de agentes e ferramentas externas. Desenvolvedores não precisam inventar workarounds através de formatação de saída — o modelo chama funções nativamente.

Por que MoE importa na prática

Mixture-of-Experts é uma forma real de reduzir custos de inferência. Por requisição, apenas um conjunto de blocos "especialistas" especializados são ativados, não toda a rede neural. A carga computacional é como um modelo pequeno, qualidade como um grande. Para Gemma 4 26B-A4B isso significa: apesar de 26 bilhões de parâmetros, a inferência funciona na verdade com 4 bilhões. Em cenários de alto throughput onde o custo de cada token importa, isso é uma vantagem substancial sobre modelos densos equivalentes.

"A família foi projetada com foco em uma ampla gama de cenários de implantação", —

Google DeepMind ao descrever a arquitetura Gemma 4.

O que isso significa

Colocar Gemma 4 no Amazon Bedrock reduz a barreira de entrada para empresas do ecossistema AWS: em vez de implantar automaticamente pesos abertos — uma API pronta com infraestrutura gerenciada. Apache 2.0 também não restringe escalabilidade, tornando a família atraente para equipes de produto que valorizam previsibilidade em condições de licenciamento.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

O que você acha?
Carregando comentários…