Google DeepMind lance DiffusionGemma — un LLM basé sur la diffusion 4 fois plus rapide que les autres modèles Gemma 4

Google DeepMind a annoncé DiffusionGemma, une nouvelle classe de modèle de langage qui utilise la diffusion au lieu de l'autorégression. Il fonctionne 4 fois…

Rédaction de Hamidun News

Veille IA · @demishassabis

30 juin 2026· 3 min

Traité par IA depuis @demishassabis ; édité par Hamidun News

Google DeepMind lance DiffusionGemma — un LLM basé sur la diffusion 4 fois plus rapide que les autres modèles Gemma 4 — Source : @demishassabis. Collage: Hamidun News.

◐ Écouter l'article

Google DeepMind a présenté DiffusionGemma — un modèle de langage d'une nouvelle classe qui applique le principe de diffusion pour la génération de texte au lieu de l'approche autorégressive standard. Selon l'équipe, le modèle fonctionne 4 fois plus vite que n'importe quel autre modèle de la famille Gemma 4 tout en maintenant une qualité comparable.

Comment Fonctionne un LLM Basé sur la Diffusion

Les modèles de langage classiques — GPT, Llama, Gemma — génèrent du texte séquentiellement : token par token, de gauche à droite. Pour générer 500 tokens, il faut 500 étapes d'inférence consécutives. C'est une limitation architecturale fondamentale : chaque token suivant dépend de tous les précédents, donc le parallélisme est impossible par la nature même de l'autorrégression.

L'approche de diffusion fonctionne différemment. La même idée qui sous-tend Stable Diffusion et DALL-E pour les images est maintenant appliquée au texte : le modèle apprend à restaurer le texte original à partir de bruit aléatoire, en affinant graduellement toute la séquence dans son ensemble — non pas de gauche à droite, mais de manière itérative, en parallèle sur toutes les positions simultanément.

Autorrégression : 500 tokens nécessitent 500 étapes consécutives
Diffusion : 500 tokens sont traités en 10–50 étapes quelle que soit la longueur
Les gains de vitesse sont non linéaires — plus le texte est long, plus l'avantage est prononcé

De nombreuses équipes ont tenté de maîtriser la diffusion pour la génération de texte depuis 2021. Le principal problème a été la qualité : les modèles de texte basés sur la diffusion ont longtemps sous-performé par rapport aux autorégresifs, avec des textes perdant en cohérence et en précision de formulation. Selon la déclaration de Hasabis, DiffusionGemma a surmonté cette barrière.

Demis Hasabis l'a Annoncé Personnellement

Le PDG de Google DeepMind a annoncé le résultat lui-même — c'est inhabituel. Les cadres à ce niveau promeuvent généralement des produits entiers ou des orientations stratégiques, mais mettent rarement en avant des solutions architecturales spécifiques comme une occasion distincte de célébration. Hasabis a personnellement félicité le chercheur Brian O'Donoghue et toute l'équipe, qualifiant le développement de 'foudroyant'.

"Une excellente innovation dans la diffusion textuelle.

DiffusionGemma est ultra-rapide — 4 fois plus rapide que les autres modèles Gemma 4. J'ai hâte de voir ce que les gens vont construire avec !" — Demis Hasabis

Contexte important : il ne s'agit pas d'une comparaison avec des benchmarks obsolètes, mais avec la famille Gemma 4 actuelle, qui elle-même est considérée comme l'une des plus efficaces de sa classe de modèles ouverts. Une augmentation quadruple par rapport à cette ligne de base est une réalisation architecturale significative.

L'Économie de l'Inférence Change

La vitesse de génération détermine à la fois le coût des API et la latence du produit final. Si DiffusionGemma génère 4 fois plus vite à qualité comparable, cela ouvre une série d'opportunités pratiques :

Coût d'inférence réduit — moins de temps GPU par réponse
Contextes longs sans croissance exponentielle de la latence
Compétitivité dans les scénarios sensibles à la latence : chatbots, autocomplétion, pipelines d'agents
Potentiel d'unification avec la génération d'images et d'audio basée sur la diffusion

La synergie multimodale est particulièrement intéressante : si la diffusion textuelle est combinée avec des approches déjà matures pour les images et l'audio, une architecture unique émerge qui traite toutes les modalités selon un seul principe. Google se dirige déjà dans cette direction avec la série Gemini — DiffusionGemma semble être le premier pas vers une diffusion multimodale complète.

Ce Que Cela Signifie

Les LLM basés sur la diffusion ont cessé d'être une expérience académique. Quand le PDG de l'un des plus grands laboratoires d'IA du monde annonce personnellement une percée architecturale, le marché répond. Si les métriques de vitesse de DiffusionGemma sont confirmées dans les tests indépendants, cela pourrait remodeler les prix sur le marché de l'inférence LLM et forcer les concurrents à accélérer leurs propres recherches sur la diffusion. Pour les développeurs qui n'ont pas encore exploré cette architecture — c'est le moment.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).

Réserver une consultation gratuite →