MarkTechPost→ original

NVIDIA apresentou o Nemotron-Labs-Diffusion: um modelo com decodificação tripla

A NVIDIA apresentou o Nemotron-Labs-Diffusion, um modelo de linguagem com suporte a três modos de decodificação: autoregressivo, por difusão e especulativo. O p

NVIDIA apresentou o Nemotron-Labs-Diffusion: um modelo com decodificação tripla
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

NVIDIA apresentou Nemotron-Labs-Diffusion — uma nova família de modelos de linguagem que combina três métodos de geração de texto em uma única arquitetura. Esta solução de engenharia aborda o principal gargalo dos LLMs modernos: modelos padrão geram texto sequencialmente, um token após outro, o que limita a velocidade de processamento e a taxa de transferência do servidor.

Três modos em uma arquitetura

Nemotron-Labs-Diffusion suporta três modos de decodificação simultaneamente. O primeiro é autorregressivo (AR), clássico como ChatGPT: o modelo observa tudo que escreveu até agora e gera o próximo token. O segundo é difusão paralela, quando o modelo gera múltiplos tokens de uma vez, como se estivesse "desenhando" texto dos dois lados.

O terceiro é especulativo, onde o modelo prediz rapidamente um bloco de tokens, depois valida as previsões em uma única passagem. Essa abordagem híbrida permite selecionar um modo dependendo da tarefa: chat em tempo real — use especulativo (rápido), processamento em lote de documentos — use baseado em difusão (paralelo), auditoria ou verificação — use autorregressivo (preciso). Autorregressivo: geração sequencial clássica, previsível Baseado em difusão: geração paralela de múltiplos tokens de uma vez * Auto-especulação: previsão rápida e eficiente com verificação de uma única passagem ## Seis vezes mais rápido em tokens Os resultados falam por si.

Com o mesmo tamanho de modelo (8B parâmetros) Nemotron-Labs-Diffusion processa 6 vezes mais tokens em uma única passagem direta do que Qwen3-8B. Esta é uma diferença enorme. Para aplicações comerciais isso significa ou mais barato servir usuários, ou mais usuários em um único servidor.

Importante: não se trata da velocidade de resposta a uma única mensagem, mas da taxa de transferência geral. Um servidor pode processar 6 sequências em paralelo, em vez de uma.

Três tamanhos, três variantes NVIDIA lançou

Nemotron-Labs-Diffusion em três tamanhos: 3B (para dispositivos de borda e móveis), 8B (opção equilibrada) e 14B (para qualidade e complexidade máximas). Cada tamanho está disponível imediatamente em três variantes: base (modelo base), instruct (otimizado para chatbots e instruções) e vision-language (funciona com imagens e texto). Isso significa que uma empresa pode pegar um modelo 8B com suporte a visão, e imediatamente ter três modos de geração mais multimodalidade.

O que isto significa O padrão é claro: o mundo está transitando de

autorregressivo puro para arquiteturas híbridas. Modelos que conseguem gerar muitos tokens em paralelo, prever especulativamente e auto-validar não precisam escolher entre velocidade e qualidade — otimizam ambos os parâmetros simultaneamente. Em breve, modelos puramente autorregressivos podem permanecer apenas para especialistas que precisam de estabilidade absoluta na saída.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…