NVIDIA Nemotron: Modelos de Difusión Generan Texto 6× Más Rápido
NVIDIA Nemotron genera 32 tokens a la vez en lugar de uno, utilizando difusión en lugar de autorregresión. Tres modos en un modelo: autorregressivo estándar, di

◐ Escuchar artículo
NVIDIA Nemotron genera 32 tokens a la vez en lugar de uno, utilizando difusión en lugar de autorregresión. Tres modos en un modelo: autorregressivo estándar, difusión rápida y auto-especulación con aceleración de 6× en B200. Los modelos 3B, 8B y 14B ya están en código abierto.