Google a publié Gemma 4 sur Hugging Face : des modèles multimodaux pour l’exécution locale
Google DeepMind a mis Gemma 4 sur Hugging Face et mise sur l’exécution locale. La gamme comprend quatre modèles multimodaux : des E2B et E4B pour les…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
Google DeepMind a dévoilé la famille Gemma 4 sur Hugging Face, mettant l'accent non pas sur la taille maximale du modèle, mais sur une combinaison de puissance, de multimodalité et la possibilité d'exécuter le modèle localement. La gamme comprend quatre versions : des modèles compacts E2B et E4B pour les scénarios edge jusqu'aux 26B A4B et 31B pour les tâches plus lourdes sur les stations de travail et le matériel serveur.
Quelles versions ont été lancées
Le lancement s'est déroulé le 2 avril 2026. Hugging Face rapporte que Gemma 4 est disponible à la fois en variantes de base et d'instruction, l'ensemble de la gamme étant distribué sous la licence Apache 2.0. Les deux plus petits modèles ont reçu une fenêtre de contexte de 128K, les deux plus grands — 256K. Google et Hugging Face présentent la série non seulement comme des modèles de chat, mais comme une base pour les scénarios d'agents, les assistants locaux et les applications multimodales, où travailler avec du texte, des images, de la vidéo et, dans certaines configurations, de l'audio est important.
- Gemma 4 E2B — 2.3B effectif, environ 5.1B avec embeddings, contexte de 128K
- Gemma 4 E4B — 4.5B effectif, environ 8B avec embeddings, contexte de 128K
- Gemma 4 26B A4B — modèle MoE avec 26B de paramètres totaux et environ 4B actifs, contexte de 256K
- Gemma 4 31B — modèle dense de 31B avec contexte de 256K
Selon Google, le modèle 31B occupait la troisième place parmi les modèles ouverts dans le classement textuel d'Arena AI au moment de l'annonce, tandis que 26B A4B occupait la sixième. Pour une série conçue notamment pour le déploiement local, c'est une déclaration forte : Google tente de concurrencer non seulement dans le cloud avec Gemini, mais aussi dans le segment des modèles ouverts, où l'équilibre entre qualité, vitesse, mémoire, stabilité en production et flexibilité de déploiement compte.
Ce que peut faire Gemma 4
Le blog de Hugging Face met l'accent sur des tests multimodaux pratiques. Les modèles peuvent travailler avec OCR, la reconnaissance vocale, la détection d'objets et l'identification de coordonnées dans les images. Dans un exemple, Gemma 4 trouve un élément d'interface sur une capture d'écran à partir d'une requête en texte brut et retourne immédiatement des boîtes délimitatrices en JSON sans délimiteurs de format supplémentaires. Pour les développeurs, c'est utile : moins de code auxiliaire autour du modèle, assemblage plus simple d'agents visuels et d'assistants d'interface.
La liste ne s'arrête pas là. Gemma 4 est démontré dans des tâches de restauration de pages HTML à partir d'images, dans les appels de fonction texte uniquement et multimodal, ainsi que dans la correction et la complétion de code. Les plus jeunes modèles E2B et E4B peuvent accepter l'audio et, dans les tâches vidéo, peuvent traiter les vidéos avec les pistes audio. Les plus anciens 26B A4B et 31B comprennent la vidéo sans audio. Selon les tests de Hugging Face, même sans entraînement ultérieur spécifique aux vidéos, les modèles gèrent avec assurance la description de ce qui se passe et la légende d'images complexes.
Pourquoi c'est pratique
Techniquement, Gemma 4 est construite autour de plusieurs solutions qui doivent améliorer les performances en contexte long et réduire le coût d'inférence. Parmi elles se trouvent l'alternance entre l'attention locale de fenêtre glissante et l'attention globale de contexte complet, les configurations RoPE séparées pour différentes couches, les Embeddings par Couche et le cache KV partagé. Cette dernière technique permet de réutiliser les états clé-valeur entre les couches, économisant la mémoire et le calcul, ce qui est particulièrement important pour la génération longue et l'exécution sur un appareil.
Un autre avantage pratique est l'ampleur de l'écosystème dès le jour du lancement. Hugging Face annonce le support pour transformers, llama.cpp, MLX, transformers.
js avec WebGPU et Mistral.rs, tandis que TRL et Unsloth Studio sont disponibles pour l'ajustement fin. Cela signifie que Gemma 4 n'est pas verrouillée dans une seule pile : le modèle peut être rapidement essayé dans un navigateur, sur un ordinateur portable, sur Mac, dans un agent local ou dans un pipeline Python familier.
Pour le marché des modèles ouverts, ce n'est plus un bonus agréable mais une condition nécessaire pour un déploiement réel.
Ce que cela signifie
Gemma 4 montre où se dirige le marché de l'IA ouverte en 2026 : moins de course au nombre brut de paramètres et plus d'attention à la multimodalité, au contexte long et au déploiement local. Si la qualité est confirmée dans les tests indépendants et les cas de production, les développeurs auront un autre modèle fondamental puissant pour les agents, les produits hors ligne et les scénarios d'entreprise où la confidentialité des données, la latence et le coût d'inférence sont plus importants que la dépendance aux API cloud.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.