MarkTechPost→ original

NVIDIA Lançou Nemotron-Labs-TwoTower — Modelo de Linguagem Difusão com Pesos Abertos

NVIDIA lançou Nemotron-Labs-TwoTower — um modelo de linguagem difusão com pesos abertos baseado no backbone AR congelado Nemotron-3-Nano-30B-A3B. A inovação…

Processado por IA de MarkTechPost; editado por Hamidun News
NVIDIA Lançou Nemotron-Labs-TwoTower — Modelo de Linguagem Difusão com Pesos Abertos
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

NVIDIA publicou Nemotron-Labs-TwoTower em 1º de julho de 2026 — um modelo de linguagem baseado em difusão com pesos abertos, construído sobre a espinha dorsal autorregressiva congelada Nemotron-3-Nano-30B-A3B. O objetivo principal do lançamento é eliminar o gargalo sistemático da geração de texto, que limita a taxa de transferência de todos os sistemas de linguagem autorregressivos. O modelo é distribuído sob a Licença NVIDIA Nemotron Open Model License.

O que limita os modelos autorregressivos

Arquiteturas autorregressivas (AR) são a base do GPT, Llama, Gemini e a maioria dos outros LLMs. O princípio é simples: cada token seguinte é previsto com base em todos os tokens anteriores, e o processo é estritamente sequencial. Isso é elegante no nível de treinamento, mas cria um problema específico na inferência industrial.

O próximo token não pode ser calculado enquanto o anterior não terminar. Adicionar aceleradores GPU ao cluster não remove essa limitação — ela está integrada à arquitetura no nível do gráfico computacional: a decodificação é sequencial por definição. Ao gerar respostas longas, o usuário espera proporcionalmente mais tempo, e o custo por token em escala atinge um limite rígido. Para provedores que processam bilhões de requisições por dia, isso representa custos operacionais diretos e contínuos. É por isso que a aceleração da inferência é uma das principais direções de pesquisa da indústria, juntamente com a redução do tamanho dos modelos e quantização.

Modelos de linguagem de difusão discreta oferecem um mecanismo alternativo: em vez de decodificação passo a passo, eles refinam iterativamente todo o bloco de saída em várias etapas. Isso abre o potencial para geração paralela de múltiplos tokens em uma única passagem — e, portanto, um perfil de taxa de transferência fundamentalmente diferente.

Como a arquitetura TwoTower funciona

A construção de duas torres combina abordagens AR e difusão em um único modelo:

  • Espinha dorsal AR: Nemotron-3-Nano-30B-A3B pré-treinado (30 bilhões de parâmetros, congelado)
  • Cabeça de difusão: componente treinável sobre a espinha dorsal congelada
  • Pesos abertos: Licença NVIDIA Nemotron Open Model License
  • Data de lançamento: 1º de julho de 2026

Congelar a espinha dorsal AR é uma decisão arquitetônica fundamentada. Em vez de treinar um modelo de difusão do zero, NVIDIA usa a fundação AR pré-treinada como uma fonte imutável de representações de linguagem contextual. Apenas o componente de difusão é treinado, o que reduz os custos computacionais para experimentação e diminui os dados necessários para adaptação. A escolha de Nemotron-3-Nano-30B-A3B como espinha dorsal também facilita a reprodutibilidade: outras equipes podem replicar o experimento usando o mesmo checkpoint disponível publicamente.

Por que difusão para texto é uma tarefa não trivial

Modelos de difusão se tornaram o padrão para geração de imagens — Stable Diffusion, Midjourney e DALL-E 3 funcionam nesse princípio. Adaptar para texto é fundamentalmente mais difícil: pixels existem em um espaço numérico contínuo, enquanto tokens são discretos. Ruído gaussiano padrão não é aplicável a objetos discretos, portanto, processos especiais de difusão discreta estão sendo desenvolvidos para texto.

Essa direção está se desenvolvendo ativamente, mas permanece jovem pelos padrões da indústria. Trabalhos anteriores — MDLM, SEDD e outros — demonstraram resultados competitivos em benchmarks de linguagem, mas a lacuna com os melhores sistemas AR em qualidade persistiu. A abordagem de duas torres da NVIDIA é uma tentativa de resolver esse compromisso: pegar as representações de linguagem forte de um modelo AR já treinado e adicionar um mecanismo de difusão a ele sem perder o conhecimento acumulado sobre sintaxe, semântica e dependências contextuais.

Pesos abertos são separadamente valiosos para a comunidade acadêmica: pesquisadores poderão reproduzir a arquitetura, medir ganhos reais de taxa de transferência em suas próprias tarefas e propor melhorias sobre o checkpoint publicado.

O que isso significa

Nemotron-Labs-TwoTower é um passo prático para acelerar a inferência de LLM sem substituir hardware. NVIDIA, como principal fornecedora de GPUs para o mercado de IA, está interessada em expandir a aplicabilidade dos modelos de linguagem, incluindo pela redução dos custos de inferência. Se a abordagem híbrida AR+difusão se mostrar viável em cenários de carga real — tanto em qualidade de geração quanto em aceleração real de throughput — ela pode influenciar as decisões arquitetônicas no desenvolvimento da próxima geração de sistemas de linguagem.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…