NVIDIA Lançou Nemotron-Labs-TwoTower — Modelo de Linguagem Difusão com Pesos Abertos
NVIDIA lançou Nemotron-Labs-TwoTower — um modelo de linguagem difusão com pesos abertos baseado no backbone AR congelado Nemotron-3-Nano-30B-A3B. A inovação…
Processado por IA de MarkTechPost; editado por Hamidun News
NVIDIA publicou Nemotron-Labs-TwoTower em 1º de julho de 2026 — um modelo de linguagem baseado em difusão com pesos abertos, construído sobre a espinha dorsal autorregressiva congelada Nemotron-3-Nano-30B-A3B. O objetivo principal do lançamento é eliminar o gargalo sistemático da geração de texto, que limita a taxa de transferência de todos os sistemas de linguagem autorregressivos. O modelo é distribuído sob a Licença NVIDIA Nemotron Open Model License.
O que limita os modelos autorregressivos
Arquiteturas autorregressivas (AR) são a base do GPT, Llama, Gemini e a maioria dos outros LLMs. O princípio é simples: cada token seguinte é previsto com base em todos os tokens anteriores, e o processo é estritamente sequencial. Isso é elegante no nível de treinamento, mas cria um problema específico na inferência industrial.
O próximo token não pode ser calculado enquanto o anterior não terminar. Adicionar aceleradores GPU ao cluster não remove essa limitação — ela está integrada à arquitetura no nível do gráfico computacional: a decodificação é sequencial por definição. Ao gerar respostas longas, o usuário espera proporcionalmente mais tempo, e o custo por token em escala atinge um limite rígido. Para provedores que processam bilhões de requisições por dia, isso representa custos operacionais diretos e contínuos. É por isso que a aceleração da inferência é uma das principais direções de pesquisa da indústria, juntamente com a redução do tamanho dos modelos e quantização.
Modelos de linguagem de difusão discreta oferecem um mecanismo alternativo: em vez de decodificação passo a passo, eles refinam iterativamente todo o bloco de saída em várias etapas. Isso abre o potencial para geração paralela de múltiplos tokens em uma única passagem — e, portanto, um perfil de taxa de transferência fundamentalmente diferente.
Como a arquitetura TwoTower funciona
A construção de duas torres combina abordagens AR e difusão em um único modelo:
- Espinha dorsal AR: Nemotron-3-Nano-30B-A3B pré-treinado (30 bilhões de parâmetros, congelado)
- Cabeça de difusão: componente treinável sobre a espinha dorsal congelada
- Pesos abertos: Licença NVIDIA Nemotron Open Model License
- Data de lançamento: 1º de julho de 2026
Congelar a espinha dorsal AR é uma decisão arquitetônica fundamentada. Em vez de treinar um modelo de difusão do zero, NVIDIA usa a fundação AR pré-treinada como uma fonte imutável de representações de linguagem contextual. Apenas o componente de difusão é treinado, o que reduz os custos computacionais para experimentação e diminui os dados necessários para adaptação. A escolha de Nemotron-3-Nano-30B-A3B como espinha dorsal também facilita a reprodutibilidade: outras equipes podem replicar o experimento usando o mesmo checkpoint disponível publicamente.
Por que difusão para texto é uma tarefa não trivial
Modelos de difusão se tornaram o padrão para geração de imagens — Stable Diffusion, Midjourney e DALL-E 3 funcionam nesse princípio. Adaptar para texto é fundamentalmente mais difícil: pixels existem em um espaço numérico contínuo, enquanto tokens são discretos. Ruído gaussiano padrão não é aplicável a objetos discretos, portanto, processos especiais de difusão discreta estão sendo desenvolvidos para texto.
Essa direção está se desenvolvendo ativamente, mas permanece jovem pelos padrões da indústria. Trabalhos anteriores — MDLM, SEDD e outros — demonstraram resultados competitivos em benchmarks de linguagem, mas a lacuna com os melhores sistemas AR em qualidade persistiu. A abordagem de duas torres da NVIDIA é uma tentativa de resolver esse compromisso: pegar as representações de linguagem forte de um modelo AR já treinado e adicionar um mecanismo de difusão a ele sem perder o conhecimento acumulado sobre sintaxe, semântica e dependências contextuais.
Pesos abertos são separadamente valiosos para a comunidade acadêmica: pesquisadores poderão reproduzir a arquitetura, medir ganhos reais de taxa de transferência em suas próprias tarefas e propor melhorias sobre o checkpoint publicado.
O que isso significa
Nemotron-Labs-TwoTower é um passo prático para acelerar a inferência de LLM sem substituir hardware. NVIDIA, como principal fornecedora de GPUs para o mercado de IA, está interessada em expandir a aplicabilidade dos modelos de linguagem, incluindo pela redução dos custos de inferência. Se a abordagem híbrida AR+difusão se mostrar viável em cenários de carga real — tanto em qualidade de geração quanto em aceleração real de throughput — ela pode influenciar as decisões arquitetônicas no desenvolvimento da próxima geração de sistemas de linguagem.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.