NVIDIA Nemotron : Les Modèles de Diffusion Génèrent du Texte 6× Plus Vite
NVIDIA Nemotron génère 32 tokens à la fois au lieu d'un, en utilisant la diffusion au lieu de l'autorégression. Trois modes dans un seul modèle : autorégression

◐ Écouter l'article
NVIDIA Nemotron génère 32 tokens à la fois au lieu d'un, en utilisant la diffusion au lieu de l'autorégression. Trois modes dans un seul modèle : autorégression standard, diffusion rapide et auto-spéculation avec accélération 6× sur B200. Les modèles 3B, 8B et 14B sont déjà en code ouvert.