Google DeepMind Gemma 4 появились на Amazon Bedrock: три модели с MoE и мультимодальностью
На Amazon Bedrock появились три модели Gemma 4 от Google DeepMind: Gemma 4 31B, Gemma 4 26B-A4B (MoE) и Gemma 4 E2B. Все распространяются под Apache 2.0 и…
Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
Amazon Bedrock a ajouté trois modèles de la famille Gemma 4, développée par Google DeepMind, à son catalogue — avec poids ouverts, support pour entrée multimodale et architecture MoE. Les modèles sont disponibles via AWS API immédiatement après l'annonce.
Trois options pour différentes tâches
Gemma 4 a été construite avec un accent sur l'intelligence par paramètre — efficacité maximale avec des exigences informatiques minimales. La famille couvre deux approches architecturales : modèles denses et MoE, où seule une portion du réseau neuronal est activée par requête. Trois variantes instruction-tuned sont disponibles sur Amazon Bedrock :
- Gemma 4 31B — un modèle dense classique avec 31 milliards de paramètres, prévisible en comportement et pratique pour le fine-tuning
- Gemma 4 26B-A4B — architecture MoE : 26B paramètres dans le modèle, mais seulement 4B sont activés par requête
- Gemma 4 E2B — une variante légère pour les environnements edge et à ressources limitées
Les trois sont distribués sous la licence Apache 2.0 — utilisation commerciale sans restrictions de volume ou de nombre de requêtes.
Ce que les modèles peuvent faire dès la sortie
Toutes les variantes Gemma 4 supportent l'entrée multimodale : le texte et les images peuvent être transmis dans une seule requête. Cela permet des applications dans l'analyse de documents, QA visuel, traitement de captures d'écran et pipelines mixtes où différents types de données doivent être traités en une seule passe.
Le raisonnement intégré permet au modèle de prendre des étapes intermédiaires avant de fournir la réponse finale. Ceci est particulièrement notable sur les tâches mathématiques, logiques et multi-étapes complexes — la précision s'améliore sans ingénierie de prompt supplémentaire.
L'appel de fonction natif fournit une intégration directe avec les systèmes d'agents et les outils externes. Les développeurs n'ont pas besoin d'inventer des contournements par formatage de sortie — le modèle appelle les fonctions nativement.
Pourquoi MoE importe en pratique
Mixture-of-Experts est une vraie façon de réduire les coûts d'inférence. Par requête, seul un ensemble de blocs "experts" spécialisés sont activés, pas tout le réseau neuronal. La charge informatique est comme un petit modèle, la qualité comme un grand. Pour Gemma 4 26B-A4B cela signifie : malgré 26 milliards de paramètres, l'inférence fonctionne effectivement avec 4 milliards. Dans les scénarios à haut débit où le coût de chaque token compte, c'est un avantage substantiel sur les modèles denses équivalents.
«
La famille a été conçue en mettant l'accent sur une large gamme de scénarios de déploiement », — Google DeepMind en décrivant l'architecture Gemma 4.
Qu'est-ce que cela signifie
Placer Gemma 4 sur Amazon Bedrock réduit la barrière à l'entrée pour les entreprises de l'écosystème AWS : au lieu de déployer automatiquement des poids ouverts — une API prête avec une infrastructure gérée. Apache 2.0 ne restreint pas non plus l'évolutivité, ce qui rend la famille attrayante pour les équipes produit qui valorisent la prévisibilité dans les conditions de licence.
Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?
Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.