NVIDIA Apresenta Gated DeltaNet-2: Atenção Linear com Portas de Memória Separadas

Q: Qual é a fonte?

Publicado originalmente em MarkTechPost. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2026-05-25. Tempo de leitura: 4 min.

NVIDIA apresentou Gated DeltaNet-2 — um novo mecanismo de atenção linear para grandes modelos de linguagem. A principal diferença: em vez de uma única porta esc

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

2026-05-25· 3 min

Processado por IA de MarkTechPost; editado por Hamidun News

NVIDIA Apresenta Gated DeltaNet-2: Atenção Linear com Portas de Memória Separadas — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

A NVIDIA apresentou um novo mecanismo de atenção linear chamado Gated DeltaNet-2, que melhora significativamente o gerenciamento de memória em grandes modelos de linguagem. A principal diferença é o gerenciamento separado de apagamento de dados antigos e escrita de novos dados, em vez de um único portão escalar usado em gerações anteriores.

Problema com Memória em Modelos Lineares

Os mecanismos de atenção linear resolvem um problema crítico dos transformers: eles comprimem um cache KV ilimitado em um estado recorrente fixo. Isso permite processar textos mais longos de forma mais eficiente e reduz significativamente o consumo de memória, o que é crítico para aplicações práticas e dispositivos com recursos limitados. No entanto, há um problema sério: editar a memória sem prejudicar as conexões existentes é uma tarefa extremamente difícil. Os modelos precisam aprender simultaneamente novos fatos e preservar conhecimentos antigos. Adicione novas informações e você corre o risco de sobrescrever associações importantes. Esqueça o antigo e você perde o contexto. Este é o conflito clássico entre aprendizado e retenção.

Modelos anteriores como Gated DeltaNet e KDA usavam um único portão escalar para gerenciar ambos os processos simultaneamente: apagamento de dados antigos e escrita de novos dados. Isso cria um conflito insolúvel: uma alavanca não pode executar eficientemente duas tarefas contraditórias. O resultado é que a qualidade do modelo sofre, e o desempenho em tarefas complexas diminui.

Como DeltaNet-2 Redesenhou a Arquitetura

A NVIDIA decidiu redesenhar radicalmente o sistema de gerenciamento de memória. Em vez de um único portão escalar, Gated DeltaNet-2 usa dois portões independentes por canal:

Portão de apagamento b_t no eixo de chaves — gerencia a exclusão de informações desatualizadas
Portão de escrita w_t no eixo de valores — controla a adição de novos dados
Cada portão opera no nível de canal (channel-wise), não como um escalar único para toda a memória
Isso permite ao modelo balancear de forma mais flexível entre esquecimento e aprendizado
A arquitetura contém 1,3B parâmetros, treinada em 100B tokens

Esta separação permite ao modelo entender: quando liberar informações antigas e quando preservar e atualizar cuidadosamente as conexões existentes na memória. Cada canal de memória pode tomar decisões independentes, o que aumenta significativamente a flexibilidade e adaptabilidade do modelo para diferentes tipos de dados e tarefas complexas. Como resultado, o modelo pode processar sequências de texto mais longas sem perda de qualidade. A memória deixa de ser apenas um armazenamento de dados, mas um sistema inteligente que sabe o que esquecer e o que manter.

Resultados Impressionantes em Benchmarks

Em testes oficiais, Gated DeltaNet-2 mostrou uma vantagem notável sobre os concorrentes:

Superou Mamba-2 em tarefas padrão de modelagem de linguagem
Ultrapassou o Gated DeltaNet original e KDA no desempenho geral
Mostrou melhores resultados do que Mamba-3 em tarefas de contexto longo
Em RULER S-NIAH (busca de agulha no palheiro) tem as melhorias mais impressionantes
Em recuperação de múltiplas chaves mostra melhoria crítica para a prática

Particularmente notáveis são os resultados em tarefas de raciocínio de senso comum. Isto não é apenas modelagem de linguagem, mas compreensão lógica das relações entre conceitos. O gerenciamento separado de memória melhora não apenas a velocidade de computação, mas também a qualidade da compreensão das conexões lógicas — um sinal de que as decisões arquitetônicas influenciam profundamente a inteligência do modelo.

O Que Isso Significa

Gated DeltaNet-2 demonstra um princípio importante: a eficiência dos mecanismos de atenção linear depende não da ideia de linearidade em si, mas dos detalhes arquitetônicos de sua implementação. Quando os engenheiros separam corretamente as funções (apagamento vs. escrita), o sistema fica simultaneamente mais rápido e mais inteligente. Na prática, isso significa: os modelos poderão processar documentos com centenas de milhares de tokens sem perda de qualidade. Isso abre novas possibilidades para aplicações que exigem contexto longo — desde busca inteligente em grandes bases de dados de texto até sistemas de diálogo complexos que precisam lembrar todo o histórico da conversa.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis