Google DeepMind lance DiffusionGemma — un modèle MoE ouvert de 26B avec une génération 4 fois plus rapide

Google DeepMind a lancé DiffusionGemma, un MoE expérimental et ouvert de 26 milliards de paramètres qui génère du texte par diffusion, plutôt que par…

Rédaction de Hamidun News

Veille IA · MarkTechPost

30 juin 2026· 2 min

Traité par IA depuis MarkTechPost ; édité par Hamidun News

Google DeepMind lance DiffusionGemma — un modèle MoE ouvert de 26B avec une génération 4 fois plus rapide — Source : MarkTechPost. Collage: Hamidun News.

◐ Écouter l'article

Google DeepMind a lancé DiffusionGemma — un modèle de langage expérimental open source avec 26 milliards de paramètres qui utilise la diffusion de texte au lieu de la génération autorrégressive conventionnelle. Sur GPU, il fonctionne jusqu'à quatre fois plus rapidement que les approches standard.

Qu'est-ce que la diffusion de texte ?

La plupart des modèles de langage modernes génèrent du texte token par token de gauche à droite — c'est ainsi que fonctionnent GPT-4, Gemini, Llama et pratiquement tous les grands LLMs. Ceci est fiable et bien étudié, mais cette approche a une limitation fondamentale : la vitesse d'inférence dépend linéairement de la longueur de la réponse. Plus le texte est long, plus l'attente est longue, plus les coûts GPU sont élevés.

DiffusionGemma fonctionne différemment. Le modèle commence par une sortie bruyante ou masquée et l'affine itérativement jusqu'à l'émergence d'un texte cohérent — analogue à la façon dont les modèles de diffusion comme Stable Diffusion génèrent des images. La différence clé par rapport à l'autorégression est le parallélisme : au lieu d'une séquence stricte, le décodeur de diffusion peut travailler sur l'ensemble du contexte simultanément. C'est ce qui fournit le gain de vitesse multiplicatif sur les GPUs modernes.

La recherche sur la diffusion de texte se poursuit depuis plusieurs années, mais les modèles open source à grande échelle de cette classe ont été rares. DiffusionGemma est l'une des premières expériences publiques sérieuses de cette magnitude d'un laboratoire majeur, et mérite l'attention pour cette raison seule.

Architecture : 26B avec MoE

DiffusionGemma est construite sur une architecture Mixture of Experts (MoE). Contrairement aux modèles « denses » où tous les paramètres sont activés à chaque demande, MoE n'active qu'un sous-ensemble de blocs experts — selon les données d'entrée. Cela permet un grand nombre de paramètres à un coût de calcul relativement faible pendant l'inférence.

Caractéristiques clés du modèle :

26B paramètres au total (architecture MoE)
Seule une partie des paramètres est activée pendant l'inférence
Diffusion de texte au lieu d'autorégression
Jusqu'à 4× d'accélération dans la génération sur GPU
Accès ouvert pour les chercheurs
Statut expérimental — pas une version de produit

Combiner MoE et diffusion est un pari architectural non trivial. MoE réduit la charge du nombre de paramètres activés, la diffusion réduit celle du nombre d'étapes de génération. En théorie, les deux améliorations fonctionnent ensemble.

Pourquoi cela change la donne

La vitesse d'inférence est l'un des principaux défis pratiques des grands modèles de langage. Pour les utilisateurs finaux, les réponses lentes sont frustrantes. Pour les fournisseurs d'inférence, cela signifie des coûts directs de temps GPU qui impactent directement les marges du service. Les solutions actuelles — quantification, décodage spéculatif, noyaux optimisés — offrent des accélérations autour de 1.5–2×. DiffusionGemma prétend 4×, par le biais d'un mécanisme de génération fondamentalement différent. Si cela se confirme dans des conditions réelles, nous parlons d'un changement de paradigme, pas d'une optimisation.

Google DeepMind publie le modèle en accès ouvert en tant qu'artefact de recherche. Cela donne à la communauté académique la possibilité d'étudier un décodeur de texte de diffusion à l'échelle de 26B. La question d'une version produit basée sur cette architecture reste ouverte.

Qu'est-ce que cela signifie

DiffusionGemma est un signal que l'autorégression cesse d'être le seul paradigme viable pour la modélisation du langage. Si l'approche de diffusion s'étend sans dégradation de qualité, la vitesse de réponse des outils d'IA pourrait augmenter de façon multiplicative — sans croissance proportionnelle des coûts d'infrastructure. Il convient de suivre l'investigation et l'évaluation du modèle par la communauté au cours des prochains mois.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite