Hugging Face Blog→ original

NVIDIA Nemotron : les modèles de diffusion génèrent le texte 6 fois plus vite

NVIDIA Nemotron génère 32 tokens à la fois au lieu d'un seul, utilisant la diffusion au lieu de l'autorégressivité. Trois modes dans un seul modèle…

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
NVIDIA Nemotron : les modèles de diffusion génèrent le texte 6 fois plus vite
Source : Hugging Face Blog. Collage: Hamidun News.
◐ Écouter l'article

NVIDIA a présenté Nemotron-Labs Diffusion — les premiers modèles de langage qui génèrent plusieurs tokens simultanément au lieu d'une sortie progressive. Cela change radicalement l'approche de la vitesse de génération de texte et de l'efficacité de l'utilisation du GPU.

Pourquoi les modèles ordinaires sont lents

Tous les modèles de langage modernes fonctionnent en mode autoregressive : ils génèrent un token, puis le suivant, puis un autre. Cela signifie que même un GPU puissant passe du temps à attendre chaque étape. Lors de la génération d'une phrase de 100 tokens, le modèle doit effectuer 100 passes, en activant à chaque fois l'ensemble du graphe de neurones. Les processeurs modernes (en particulier B200) passent plus de temps à accéder à la mémoire qu'à effectuer les calculs eux-mêmes — c'est le goulot d'étranglement.

Diffusion au lieu de autorégressivité

Nemotron résout ce problème par les modèles de diffusion. L'idée est simple : générer beaucoup de tokens à la fois, puis les affiner. Le modèle supporte trois modes de fonctionnement sur un seul checkpoint :

  • Autoregressive — mode ordinaire, mot après mot, pour la compatibilité
  • FastDiffuser — génère des blocs de 32 tokens à la fois et les améliore itérativement en plusieurs passes
  • LinearSpec — génération de brouillon par diffusion plus vérification autoregressive, offrant une accélération 6× sur B200

Le développeur choisit simplement le mode au lancement — le code de l'application ne change pas.

Chiffres de performance

Nemotron 8B vs. homologues :

  • Sur GPU B200 en mode auto-spéculation, il atteint ~865 tokens par seconde
  • 2,6× plus de tokens par une seule passe du réseau
  • +1,2% de précision par rapport à Qwen3 8B
  • En mode le plus rapide, il génère 6,4 fois plus de tokens que les modèles ordinaires

On peut réduire le nombre de passes d'affinage si moins de calcul est nécessaire — l'ingénieur gère le compromis entre la qualité et la vitesse.

Trois tailles et poids prêts

NVIDIA a publié des modèles avec 3B, 8B et 14B paramètres. Chacun existe en deux variantes : base (entraîné sur 1,3 trillion de tokens) et instruction pour le chat. Tout le code d'entraînement et l'intégration via SGLang (un framework d'inférence populaire) sont déjà ouverts sur GitHub.

Ce que cela signifie

Les modèles de diffusion cessent d'être une expérience en laboratoire — ils entrent en production. Pour les développeurs, cela signifie qu'on peut prendre un seul modèle et basculer entre les modes selon la vitesse : lent mais précis pour les tâches critiques ; rapide pour les opérations de masse. Pour les fournisseurs de services — la possibilité de réduire le coût de l'inférence et de diminuer la latence lors de la réponse aux utilisateurs.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…