NVIDIA presentó Nemotron-Labs-Diffusion: un modelo con decodificación triple
NVIDIA presentó Nemotron-Labs-Diffusion, un modelo de lenguaje con soporte para tres modos de decodificación: autorregresivo, de difusión y especulativo. El res

NVIDIA ha presentado Nemotron-Labs-Diffusion — una nueva familia de modelos de lenguaje que combina tres métodos de generación de texto en una única arquitectura. Esta solución de ingeniería aborda el principal cuello de botella de los LLMs modernos: los modelos estándar generan texto secuencialmente, un token tras otro, lo que limita la velocidad de procesamiento y el rendimiento del servidor.
Tres modos en una arquitectura
Nemotron-Labs-Diffusion soporta tres modos de decodificación simultáneamente. El primero es autorregressivo (AR), clásico como ChatGPT: el modelo observa todo lo que ha escrito hasta ahora y genera el siguiente token. El segundo es difusión paralela, cuando el modelo genera múltiples tokens a la vez, como si estuviera "dibujando" texto desde ambos lados.
El tercero es especulativo, donde el modelo predice rápidamente un bloque de tokens, luego valida las predicciones en una única pasada. Este enfoque híbrido permite seleccionar un modo dependiendo de la tarea: chat en tiempo real — usa especulativo (rápido), procesamiento por lotes de documentos — usa basado en difusión (paralelo), auditoría o verificación — usa autorregressivo (preciso). Autorregressivo: generación secuencial clásica, predecible Basado en difusión: generación paralela de múltiplos tokens a la vez * Auto-especulación: predicción rápida y eficiente con verificación de una sola pasada ## Seis veces más rápido en tokens Los resultados hablan por sí solos.
Con el mismo tamaño de modelo (8B parámetros) Nemotron-Labs-Diffusion procesa 6 veces más tokens en una única pasada hacia adelante que Qwen3-8B. Esta es una diferencia enorme. Para aplicaciones comerciales esto significa o más barato servir a usuarios, o más usuarios en un único servidor.
Importante: esto no es sobre la velocidad de respuesta a un único mensaje, sino sobre el rendimiento general. Un servidor puede procesar 6 secuencias en paralelo, en lugar de una.
Tres tamaños, tres variantes NVIDIA ha lanzado
Nemotron-Labs-Diffusion en tres tamaños: 3B (para dispositivos periféricos y móviles), 8B (opción equilibrada) y 14B (para máxima calidad y complejidad). Cada tamaño está disponible inmediatamente en tres variantes: base (modelo base), instruct (optimizado para chatbots e instrucciones) y vision-language (funciona con imágenes y texto). Esto significa que una empresa puede tomar un modelo 8B con soporte de visión, e inmediatamente tener tres modos de generación más multimodalidad.
Qué significa esto
El patrón es claro: el mundo está transitando de autorregressivo puro a arquitecturas híbridas. Los modelos que pueden generar muchos tokens en paralelo, predecir especulativamente y auto-validar no necesitan elegir entre velocidad y calidad — optimizan ambos parámetros simultáneamente. Pronto los modelos puramente autorregressivos pueden permanecer solo para especialistas que necesitan estabilidad absoluta en la salida.