NVIDIA Nemotron: los modelos de difusión generan texto 6 veces más rápido

Q: ¿Cuál es la fuente?

Publicado originalmente en Hugging Face Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

25 may 2026. Tiempo de lectura: 3 min.

NVIDIA Nemotron genera 32 tokens a la vez en lugar de uno, utilizando difusión en lugar de autorregresión. Tres modos en un solo modelo: autoregresivo…

Redacción de Hamidun News

Monitoreo de AI · Hugging Face Blog

25 may 2026· 3 min

Procesado por IA desde Hugging Face Blog; editado por Hamidun News

NVIDIA Nemotron: los modelos de difusión generan texto 6 veces más rápido — Fuente: Hugging Face Blog. Collage: Hamidun News.

◐ Escuchar artículo

NVIDIA presentó Nemotron-Labs Diffusion, los primeros modelos de lenguaje que generan varios tokens simultáneamente en lugar de un resultado gradual. Esto cambia fundamentalmente el enfoque de la velocidad de generación de texto y la eficiencia del uso de GPU.

Por qué los modelos convencionales son lentos

Todos los modelos de lenguaje modernos funcionan en modo autoregresivo: generan un token, luego el siguiente, y así sucesivamente. Esto significa que incluso una GPU potente dedica tiempo a esperar cada paso. Al generar una oración de 100 tokens, el modelo debe realizar 100 pasadas, activando cada vez todo el gráfico de la red neuronal. Los procesadores modernos (especialmente B200) gastan más tiempo en acceso a memoria que en computaciones reales, este es el cuello de botella.

Difusión en lugar de autorregresión

Nemotron resuelve este problema a través de modelos de difusión. La idea es simple: genera muchos tokens a la vez y luego refínalos. El modelo admite tres modos de funcionamiento en un único checkpoint:

Autoregresivo: modo convencional, palabra por palabra, para compatibilidad
FastDiffuser: genera bloques de 32 tokens a la vez e iterativamente los mejora en varios pasadas
LinearSpec: generación de borrador de difusión más verificación autoregresiva, proporciona aceleración de 6 veces en B200

El desarrollador simplemente elige el modo al iniciar, el código de la aplicación no cambia.

Cifras de rendimiento

Nemotron 8B vs. equivalentes:

En GPU B200 en modo de autoespeculación alcanza ~865 tokens por segundo
2.6 veces más tokens en un pasada de la red neuronal
+1.2% de precisión en comparación con Qwen3 8B
En el modo más rápido genera 6.4 veces más tokens que los modelos convencionales

Se puede reducir el número de pasadas de refinamiento si se necesitan menos cálculos, el ingeniero controla el equilibrio entre calidad y velocidad.

Tres tamaños y pesos preentrenados

NVIDIA lanzó modelos de 3B, 8B y 14B parámetros. Cada uno viene en dos variantes: base (entrenado en 1.3 billones de tokens) e instruccional para chat. Todo el código de entrenamiento e integración a través de SGLang (un framework de inferencia popular) ya está abierto en GitHub.

Qué significa esto

Los modelos de difusión dejan de ser un experimento en laboratorios y entran en producción. Para los desarrolladores, esto significa que pueden tomar un modelo y cambiar entre modos según la velocidad: lento pero preciso para tareas críticas; rápido para operaciones masivas. Para proveedores de servicios, es la oportunidad de reducir el costo de inferencia y disminuir la latencia en las respuestas a los usuarios.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita