NVIDIA a Lancé Nemotron-Labs-TwoTower — Modèle de Langage Diffusion aux Poids Ouverts

NVIDIA a lancé Nemotron-Labs-TwoTower — un modèle de langage diffusion aux poids ouverts basé sur le backbone AR gelé Nemotron-3-Nano-30B-A3B. L'innovation…

Rédaction de Hamidun News

Veille IA · MarkTechPost

4 juil. 2026· 2 min

Traité par IA depuis MarkTechPost ; édité par Hamidun News

NVIDIA a Lancé Nemotron-Labs-TwoTower — Modèle de Langage Diffusion aux Poids Ouverts — Source : MarkTechPost. Collage: Hamidun News.

◐ Écouter l'article

NVIDIA a publié Nemotron-Labs-TwoTower le 1er juillet 2026 — un modèle de langage basé sur la diffusion avec des poids ouverts, construit sur le réseau de base autorégréssif gelé Nemotron-3-Nano-30B-A3B. L'objectif principal de la sortie est d'éliminer le goulot d'étranglement systémique de la génération de texte, qui limite le débit de tous les systèmes de langage autoregressifs. Le modèle est distribué sous la Licence NVIDIA Nemotron Open Model License.

Ce qui limite les modèles autoregressifs

Les architectures autoregressives (AR) sont la base de GPT, Llama, Gemini et de la plupart des autres LLMs. Le principe est simple : chaque jeton suivant est prédit en fonction de tous les jetons précédents, et le processus est strictement séquentiel. C'est élégant au niveau de l'entraînement, mais cela crée un problème spécifique lors de l'inférence industrielle.

Le jeton suivant ne peut pas être calculé tant que le précédent n'est pas terminé. Ajouter des accélérateurs GPU au cluster ne lève pas cette limite — elle est intégrée dans l'architecture au niveau du graphe de calcul : le décodage est séquentiel par définition. Lors de la génération de réponses longues, l'utilisateur attend proportionnellement plus longtemps, et le coût par jeton à l'échelle atteint un plancher dur. Pour les fournisseurs traitant des milliards de requêtes par jour, cela représente des coûts opérationnels directs et continus. C'est pourquoi l'accélération de l'inférence est l'une des principales directions de recherche de l'industrie, aux côtés de la réduction de la taille des modèles et de la quantification.

Les modèles de langage de diffusion discrète offrent un mécanisme alternatif : au lieu d'un décodage étape par étape, ils affinent itérativement l'ensemble du bloc de sortie en plusieurs étapes. Cela ouvre le potentiel de génération parallèle de plusieurs jetons en une seule passe — et donc un profil de débit fondamentalement différent.

Comment fonctionne l'architecture TwoTower

La construction à deux tours combine les approches AR et diffusion dans un seul modèle :

Réseau de base AR : Nemotron-3-Nano-30B-A3B préentraîné (30 milliards de paramètres, gelé)
Tête de diffusion : composant entraînable sur le réseau de base gelé
Poids ouverts : Licence NVIDIA Nemotron Open Model License
Date de sortie : 1er juillet 2026

Geler le réseau de base AR est une décision architecturale fondée. Au lieu d'entraîner un modèle de diffusion à partir de zéro, NVIDIA utilise la base AR préentraînée comme source immuable de représentations du langage contextuel. Seul le composant de diffusion est entraîné, ce qui réduit les coûts de calcul pour l'expérimentation et diminue les données nécessaires à l'adaptation. Le choix de Nemotron-3-Nano-30B-A3B comme réseau de base facilite également la reproductibilité : d'autres équipes peuvent reproduire l'expérience en utilisant le même point de contrôle accessible au public.

Pourquoi la diffusion pour le texte est une tâche non triviale

Les modèles de diffusion sont devenus la norme pour la génération d'images — Stable Diffusion, Midjourney et DALL-E 3 fonctionnent selon ce principe. L'adaptation au texte est fondamentalement plus difficile : les pixels existent dans un espace numérique continu, tandis que les jetons sont discrets. Le bruit gaussien standard n'est pas applicable aux objets discrets, donc des processus spéciaux de diffusion discrète sont en développement pour le texte.

Cette direction se développe activement mais reste jeune selon les normes de l'industrie. Les travaux précédents — MDLM, SEDD et autres — ont démontré des résultats concurrentiels sur les benchmarks linguistiques, cependant, l'écart avec les meilleurs systèmes AR en qualité persistait. L'approche à deux tours de NVIDIA est une tentative de résoudre ce compromis : prendre les fortes représentations du langage d'un modèle AR déjà entraîné et y ajouter un mécanisme de diffusion sans perdre les connaissances accumulées sur la syntaxe, la sémantique et les dépendances contextuelles.

Les poids ouverts sont séparément précieux pour la communauté académique : les chercheurs pourront reproduire l'architecture, mesurer les gains réels de débit sur leurs propres tâches et proposer des améliorations au-dessus du point de contrôle publié.

Ce que cela signifie

Nemotron-Labs-TwoTower est une étape pratique vers l'accélération de l'inférence LLM sans remplacer le matériel. NVIDIA, en tant que principal fournisseur de GPUs pour le marché de l'IA, est intéressée par l'expansion de l'applicabilité des modèles de langage, notamment en réduisant les coûts d'inférence. Si l'approche hybride AR+diffusion prouve sa viabilité dans des scénarios de charge réels — tant en qualité de génération qu'en accélération réelle du débit — elle pourrait influencer les décisions architecturales dans le développement de la prochaine génération de systèmes de langage.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite