Hugging Face Blog→ original

NVIDIA Nemotron: modelos de difusão geram texto 6 vezes mais rápido

O NVIDIA Nemotron gera 32 tokens de uma vez em vez de um, usando difusão em vez de autorregressão. Três modos em um único modelo: autorregressivo comum…

Processado por IA de Hugging Face Blog; editado por Hamidun News
NVIDIA Nemotron: modelos de difusão geram texto 6 vezes mais rápido
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A NVIDIA apresentou Nemotron-Labs Diffusion — os primeiros modelos de linguagem que geram vários tokens simultaneamente em vez de saída gradual. Isso muda fundamentalmente a abordagem da velocidade de geração de texto e da eficiência do uso da GPU.

Por que modelos comuns são lentos

Todos os modelos de linguagem modernos funcionam no modo autorregressivo: geram um token, depois o próximo, depois outro. Isso significa que até uma GPU poderosa gasta tempo esperando cada etapa. Ao gerar uma frase de 100 tokens, o modelo deve realizar 100 passes, ativando todo o gráfico da rede neural a cada vez. Os processadores modernos (especialmente o B200) gastam mais tempo acessando memória do que em computações reais — esse é o gargalo.

Difusão em vez de autorregressão

O Nemotron resolve esse problema através de modelos de difusão. A ideia é simples: gere muitos tokens de uma vez e depois refine-os. O modelo suporta três modos de operação em um único checkpoint:

  • Autoregressive — modo comum, palavra por palavra, para compatibilidade
  • FastDiffuser — gera blocos de 32 tokens de uma vez e os refina iterativamente através de vários passes
  • LinearSpec — geração de rascunho de difusão mais verificação autorregressiva, fornecendo aceleração de 6× no B200

O desenvolvedor simplesmente escolhe o modo na inicialização — o código da aplicação não muda.

Números de desempenho

Nemotron 8B vs. análogos:

  • No GPU B200 no modo autoespeculação atinge ~865 tokens por segundo
  • 2,6× mais tokens em um único pass da rede neural
  • +1,2% de precisão em comparação com Qwen3 8B
  • No modo mais rápido gera 6,4 vezes mais tokens do que modelos comuns

Você pode reduzir o número de passes de refinamento se precisar de menos computação — o engenheiro controla o compromisso entre qualidade e velocidade.

Três tamanhos e pesos prontos

A NVIDIA lançou modelos com 3B, 8B e 14B parâmetros. Cada um vem em duas variantes: base (treinado em 1,3 trilhão de tokens) e com instruções para chat. Todo o código de treinamento e integração através do SGLang (framework de inferência popular) já está aberto no GitHub.

O que isso significa

Modelos de difusão deixam de ser experimentação em laboratórios — entram em produção. Para desenvolvedores, significa que você pode pegar um modelo e alternar entre modos de velocidade: lento mas preciso para tarefas críticas; rápido para operações em massa. Para provedores de serviços — a capacidade de reduzir o custo de inferência e diminuir a latência ao responder aos usuários.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…