NVIDIA Nemotron: Modelos de Difusão Geram Texto 6× Mais Rápido
NVIDIA Nemotron gera 32 tokens por vez ao invés de um, usando difusão em vez de auto-regressão. Três modos em um modelo: autoregressivo padrão, difusão rápida e

◐ Ouvir artigo
NVIDIA Nemotron gera 32 tokens por vez ao invés de um, usando difusão em vez de auto-regressão. Três modos em um modelo: autoregressivo padrão, difusão rápida e auto-especulação com aceleração de 6× no B200. Modelos 3B, 8B e 14B já estão em open source.