NVIDIA apresentou o Nemotron-Labs-Diffusion: um modelo com decodificação tripla
A NVIDIA apresentou o Nemotron-Labs-Diffusion, um modelo de linguagem com suporte a três modos de decodificação: autoregressivo, por difusão e especulativo. O p

NVIDIA apresentou Nemotron-Labs-Diffusion — uma nova família de modelos de linguagem que combina três métodos de geração de texto em uma única arquitetura. Esta solução de engenharia aborda o principal gargalo dos LLMs modernos: modelos padrão geram texto sequencialmente, um token após outro, o que limita a velocidade de processamento e a taxa de transferência do servidor.
Três modos em uma arquitetura
Nemotron-Labs-Diffusion suporta três modos de decodificação simultaneamente. O primeiro é autorregressivo (AR), clássico como ChatGPT: o modelo observa tudo que escreveu até agora e gera o próximo token. O segundo é difusão paralela, quando o modelo gera múltiplos tokens de uma vez, como se estivesse "desenhando" texto dos dois lados.
O terceiro é especulativo, onde o modelo prediz rapidamente um bloco de tokens, depois valida as previsões em uma única passagem. Essa abordagem híbrida permite selecionar um modo dependendo da tarefa: chat em tempo real — use especulativo (rápido), processamento em lote de documentos — use baseado em difusão (paralelo), auditoria ou verificação — use autorregressivo (preciso). Autorregressivo: geração sequencial clássica, previsível Baseado em difusão: geração paralela de múltiplos tokens de uma vez * Auto-especulação: previsão rápida e eficiente com verificação de uma única passagem ## Seis vezes mais rápido em tokens Os resultados falam por si.
Com o mesmo tamanho de modelo (8B parâmetros) Nemotron-Labs-Diffusion processa 6 vezes mais tokens em uma única passagem direta do que Qwen3-8B. Esta é uma diferença enorme. Para aplicações comerciais isso significa ou mais barato servir usuários, ou mais usuários em um único servidor.
Importante: não se trata da velocidade de resposta a uma única mensagem, mas da taxa de transferência geral. Um servidor pode processar 6 sequências em paralelo, em vez de uma.
Três tamanhos, três variantes NVIDIA lançou
Nemotron-Labs-Diffusion em três tamanhos: 3B (para dispositivos de borda e móveis), 8B (opção equilibrada) e 14B (para qualidade e complexidade máximas). Cada tamanho está disponível imediatamente em três variantes: base (modelo base), instruct (otimizado para chatbots e instruções) e vision-language (funciona com imagens e texto). Isso significa que uma empresa pode pegar um modelo 8B com suporte a visão, e imediatamente ter três modos de geração mais multimodalidade.
O que isto significa O padrão é claro: o mundo está transitando de
autorregressivo puro para arquiteturas híbridas. Modelos que conseguem gerar muitos tokens em paralelo, prever especulativamente e auto-validar não precisam escolher entre velocidade e qualidade — otimizam ambos os parâmetros simultaneamente. Em breve, modelos puramente autorregressivos podem permanecer apenas para especialistas que precisam de estabilidade absoluta na saída.