NVIDIA Nemotron: los modelos de difusión generan texto 6 veces más rápido
NVIDIA Nemotron genera 32 tokens a la vez en lugar de uno, utilizando difusión en lugar de autorregresión. Tres modos en un solo modelo: autoregresivo…
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
NVIDIA presentó Nemotron-Labs Diffusion, los primeros modelos de lenguaje que generan varios tokens simultáneamente en lugar de un resultado gradual. Esto cambia fundamentalmente el enfoque de la velocidad de generación de texto y la eficiencia del uso de GPU.
Por qué los modelos convencionales son lentos
Todos los modelos de lenguaje modernos funcionan en modo autoregresivo: generan un token, luego el siguiente, y así sucesivamente. Esto significa que incluso una GPU potente dedica tiempo a esperar cada paso. Al generar una oración de 100 tokens, el modelo debe realizar 100 pasadas, activando cada vez todo el gráfico de la red neuronal. Los procesadores modernos (especialmente B200) gastan más tiempo en acceso a memoria que en computaciones reales, este es el cuello de botella.
Difusión en lugar de autorregresión
Nemotron resuelve este problema a través de modelos de difusión. La idea es simple: genera muchos tokens a la vez y luego refínalos. El modelo admite tres modos de funcionamiento en un único checkpoint:
- Autoregresivo: modo convencional, palabra por palabra, para compatibilidad
- FastDiffuser: genera bloques de 32 tokens a la vez e iterativamente los mejora en varios pasadas
- LinearSpec: generación de borrador de difusión más verificación autoregresiva, proporciona aceleración de 6 veces en B200
El desarrollador simplemente elige el modo al iniciar, el código de la aplicación no cambia.
Cifras de rendimiento
Nemotron 8B vs. equivalentes:
- En GPU B200 en modo de autoespeculación alcanza ~865 tokens por segundo
- 2.6 veces más tokens en un pasada de la red neuronal
- +1.2% de precisión en comparación con Qwen3 8B
- En el modo más rápido genera 6.4 veces más tokens que los modelos convencionales
Se puede reducir el número de pasadas de refinamiento si se necesitan menos cálculos, el ingeniero controla el equilibrio entre calidad y velocidad.
Tres tamaños y pesos preentrenados
NVIDIA lanzó modelos de 3B, 8B y 14B parámetros. Cada uno viene en dos variantes: base (entrenado en 1.3 billones de tokens) e instruccional para chat. Todo el código de entrenamiento e integración a través de SGLang (un framework de inferencia popular) ya está abierto en GitHub.
Qué significa esto
Los modelos de difusión dejan de ser un experimento en laboratorios y entran en producción. Para los desarrolladores, esto significa que pueden tomar un modelo y cambiar entre modos según la velocidad: lento pero preciso para tareas críticas; rápido para operaciones masivas. Para proveedores de servicios, es la oportunidad de reducir el costo de inferencia y disminuir la latencia en las respuestas a los usuarios.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.