NVIDIA présente Nemotron-Labs-Diffusion : un modèle à triple décodage
NVIDIA a présenté Nemotron-Labs-Diffusion, un modèle de langage prenant en charge trois modes de décodage : autorégressif, par diffusion et spéculatif. Le princ

NVIDIA a présenté Nemotron-Labs-Diffusion — une nouvelle famille de modèles de langage qui combine trois méthodes de génération de texte dans une seule architecture. Cette solution d'ingénierie s'attaque au principal goulot d'étranglement des LLMs modernes : les modèles standard génèrent du texte de manière séquentielle, un token après l'autre, ce qui limite la vitesse de traitement et le débit des serveurs.
Trois modes dans une architecture
Nemotron-Labs-Diffusion supporte trois modes de décodage simultanément. Le premier est autorégressif (AR), classique comme ChatGPT : le modèle observe tout ce qu'il a écrit jusqu'à présent et génère le token suivant. Le second est diffusion parallèle, quand le modèle génère plusieurs tokens à la fois, comme s'il « dessinait » le texte des deux côtés.
Le troisième est spéculatif, où le modèle prédit rapidement un bloc de tokens, puis valide les prédictions en une seule passe. Cette approche hybride permet de sélectionner un mode en fonction de la tâche : chat en temps réel — utilisez spéculatif (rapide), traitement par lot de documents — utilisez basé sur la diffusion (parallèle), audit ou vérification — utilisez autorégressif (précis). Autorégressif : génération séquentielle classique, prévisible Basé sur la diffusion : génération parallèle de plusieurs tokens à la fois * Auto-spéculation : prédiction rapide et efficace avec vérification en une seule passe ## Six fois plus rapide sur les tokens Les résultats parlent d'eux-mêmes.
Avec la même taille de modèle (8B paramètres) Nemotron-Labs-Diffusion traite 6 fois plus de tokens en une seule passe avant que Qwen3-8B. C'est une énorme différence. Pour les applications commerciales, cela signifie soit moins cher de servir les utilisateurs, soit plus d'utilisateurs sur un seul serveur.
Important : il ne s'agit pas de la vitesse de réponse à un seul message, mais du débit global. Un serveur peut traiter 6 séquences en parallèle, au lieu d'une.
Trois tailles, trois variantes NVIDIA a lancé
Nemotron-Labs-Diffusion en trois tailles : 3B (pour les appareils de périphérie et mobiles), 8B (option équilibrée) et 14B (pour la qualité et la complexité maximales). Chaque taille est disponible immédiatement en trois variantes : base (modèle de base), instruct (optimisé pour les chatbots et les instructions) et vision-language (fonctionne avec les images et le texte). Cela signifie qu'une entreprise peut prendre un modèle 8B avec support de la vision, et avoir immédiatement trois modes de génération plus la multimodalité.
Ce que cela signifie
Le modèle est clair : le monde passe d'autorégressif pur à des architectures hybrides. Les modèles qui peuvent générer de nombreux tokens en parallèle, prédire spéculativement et s'auto-valider n'ont pas besoin de choisir entre vitesse et qualité — ils optimisent les deux paramètres simultanément. Bientôt, les modèles purement autoregressifs ne pourront rester que pour les spécialistes qui ont besoin d'une stabilité absolue en sortie.