NVIDIA Nemotron: modelos de difusão geram texto 6 vezes mais rápido
O NVIDIA Nemotron gera 32 tokens de uma vez em vez de um, usando difusão em vez de autorregressão. Três modos em um único modelo: autorregressivo comum…
Processado por IA de Hugging Face Blog; editado por Hamidun News
A NVIDIA apresentou Nemotron-Labs Diffusion — os primeiros modelos de linguagem que geram vários tokens simultaneamente em vez de saída gradual. Isso muda fundamentalmente a abordagem da velocidade de geração de texto e da eficiência do uso da GPU.
Por que modelos comuns são lentos
Todos os modelos de linguagem modernos funcionam no modo autorregressivo: geram um token, depois o próximo, depois outro. Isso significa que até uma GPU poderosa gasta tempo esperando cada etapa. Ao gerar uma frase de 100 tokens, o modelo deve realizar 100 passes, ativando todo o gráfico da rede neural a cada vez. Os processadores modernos (especialmente o B200) gastam mais tempo acessando memória do que em computações reais — esse é o gargalo.
Difusão em vez de autorregressão
O Nemotron resolve esse problema através de modelos de difusão. A ideia é simples: gere muitos tokens de uma vez e depois refine-os. O modelo suporta três modos de operação em um único checkpoint:
- Autoregressive — modo comum, palavra por palavra, para compatibilidade
- FastDiffuser — gera blocos de 32 tokens de uma vez e os refina iterativamente através de vários passes
- LinearSpec — geração de rascunho de difusão mais verificação autorregressiva, fornecendo aceleração de 6× no B200
O desenvolvedor simplesmente escolhe o modo na inicialização — o código da aplicação não muda.
Números de desempenho
Nemotron 8B vs. análogos:
- No GPU B200 no modo autoespeculação atinge ~865 tokens por segundo
- 2,6× mais tokens em um único pass da rede neural
- +1,2% de precisão em comparação com Qwen3 8B
- No modo mais rápido gera 6,4 vezes mais tokens do que modelos comuns
Você pode reduzir o número de passes de refinamento se precisar de menos computação — o engenheiro controla o compromisso entre qualidade e velocidade.
Três tamanhos e pesos prontos
A NVIDIA lançou modelos com 3B, 8B e 14B parâmetros. Cada um vem em duas variantes: base (treinado em 1,3 trilhão de tokens) e com instruções para chat. Todo o código de treinamento e integração através do SGLang (framework de inferência popular) já está aberto no GitHub.
O que isso significa
Modelos de difusão deixam de ser experimentação em laboratórios — entram em produção. Para desenvolvedores, significa que você pode pegar um modelo e alternar entre modos de velocidade: lento mas preciso para tarefas críticas; rápido para operações em massa. Para provedores de serviços — a capacidade de reduzir o custo de inferência e diminuir a latência ao responder aos usuários.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.