NVIDIA Nemotron: modelos de difusão geram texto 6 vezes mais rápido

Q: Qual é a fonte?

Publicado originalmente em Hugging Face Blog. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

25 de mai. de 2026. Tempo de leitura: 3 min.

O NVIDIA Nemotron gera 32 tokens de uma vez em vez de um, usando difusão em vez de autorregressão. Três modos em um único modelo: autorregressivo comum…

Redação da Hamidun News

Monitoramento de AI · Hugging Face Blog

25 de mai. de 2026· 3 min

Processado por IA de Hugging Face Blog; editado por Hamidun News

NVIDIA Nemotron: modelos de difusão geram texto 6 vezes mais rápido — Fonte: Hugging Face Blog. Colagem: Hamidun News.

◐ Ouvir artigo

A NVIDIA apresentou Nemotron-Labs Diffusion — os primeiros modelos de linguagem que geram vários tokens simultaneamente em vez de saída gradual. Isso muda fundamentalmente a abordagem da velocidade de geração de texto e da eficiência do uso da GPU.

Por que modelos comuns são lentos

Todos os modelos de linguagem modernos funcionam no modo autorregressivo: geram um token, depois o próximo, depois outro. Isso significa que até uma GPU poderosa gasta tempo esperando cada etapa. Ao gerar uma frase de 100 tokens, o modelo deve realizar 100 passes, ativando todo o gráfico da rede neural a cada vez. Os processadores modernos (especialmente o B200) gastam mais tempo acessando memória do que em computações reais — esse é o gargalo.

Difusão em vez de autorregressão

O Nemotron resolve esse problema através de modelos de difusão. A ideia é simples: gere muitos tokens de uma vez e depois refine-os. O modelo suporta três modos de operação em um único checkpoint:

Autoregressive — modo comum, palavra por palavra, para compatibilidade
FastDiffuser — gera blocos de 32 tokens de uma vez e os refina iterativamente através de vários passes
LinearSpec — geração de rascunho de difusão mais verificação autorregressiva, fornecendo aceleração de 6× no B200

O desenvolvedor simplesmente escolhe o modo na inicialização — o código da aplicação não muda.

Números de desempenho

Nemotron 8B vs. análogos:

No GPU B200 no modo autoespeculação atinge ~865 tokens por segundo
2,6× mais tokens em um único pass da rede neural
+1,2% de precisão em comparação com Qwen3 8B
No modo mais rápido gera 6,4 vezes mais tokens do que modelos comuns

Você pode reduzir o número de passes de refinamento se precisar de menos computação — o engenheiro controla o compromisso entre qualidade e velocidade.

Três tamanhos e pesos prontos

A NVIDIA lançou modelos com 3B, 8B e 14B parâmetros. Cada um vem em duas variantes: base (treinado em 1,3 trilhão de tokens) e com instruções para chat. Todo o código de treinamento e integração através do SGLang (framework de inferência popular) já está aberto no GitHub.

O que isso significa

Modelos de difusão deixam de ser experimentação em laboratórios — entram em produção. Para desenvolvedores, significa que você pode pegar um modelo e alternar entre modos de velocidade: lento mas preciso para tarefas críticas; rápido para operações em massa. Para provedores de serviços — a capacidade de reduzir o custo de inferência e diminuir a latência ao responder aos usuários.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis