MarkTechPost→ original

NVIDIA Apresenta Gated DeltaNet-2: Atenção Linear com Portas de Memória Separadas

NVIDIA apresentou Gated DeltaNet-2 — um novo mecanismo de atenção linear para grandes modelos de linguagem. A principal diferença: em vez de uma única porta esc

Processado por IA de MarkTechPost; editado por Hamidun News
NVIDIA Apresenta Gated DeltaNet-2: Atenção Linear com Portas de Memória Separadas
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A NVIDIA apresentou um novo mecanismo de atenção linear chamado Gated DeltaNet-2, que melhora significativamente o gerenciamento de memória em grandes modelos de linguagem. A principal diferença é o gerenciamento separado de apagamento de dados antigos e escrita de novos dados, em vez de um único portão escalar usado em gerações anteriores.

Problema com Memória em Modelos Lineares

Os mecanismos de atenção linear resolvem um problema crítico dos transformers: eles comprimem um cache KV ilimitado em um estado recorrente fixo. Isso permite processar textos mais longos de forma mais eficiente e reduz significativamente o consumo de memória, o que é crítico para aplicações práticas e dispositivos com recursos limitados. No entanto, há um problema sério: editar a memória sem prejudicar as conexões existentes é uma tarefa extremamente difícil. Os modelos precisam aprender simultaneamente novos fatos e preservar conhecimentos antigos. Adicione novas informações e você corre o risco de sobrescrever associações importantes. Esqueça o antigo e você perde o contexto. Este é o conflito clássico entre aprendizado e retenção.

Modelos anteriores como Gated DeltaNet e KDA usavam um único portão escalar para gerenciar ambos os processos simultaneamente: apagamento de dados antigos e escrita de novos dados. Isso cria um conflito insolúvel: uma alavanca não pode executar eficientemente duas tarefas contraditórias. O resultado é que a qualidade do modelo sofre, e o desempenho em tarefas complexas diminui.

Como DeltaNet-2 Redesenhou a Arquitetura

A NVIDIA decidiu redesenhar radicalmente o sistema de gerenciamento de memória. Em vez de um único portão escalar, Gated DeltaNet-2 usa dois portões independentes por canal:

  • Portão de apagamento b_t no eixo de chaves — gerencia a exclusão de informações desatualizadas
  • Portão de escrita w_t no eixo de valores — controla a adição de novos dados
  • Cada portão opera no nível de canal (channel-wise), não como um escalar único para toda a memória
  • Isso permite ao modelo balancear de forma mais flexível entre esquecimento e aprendizado
  • A arquitetura contém 1,3B parâmetros, treinada em 100B tokens

Esta separação permite ao modelo entender: quando liberar informações antigas e quando preservar e atualizar cuidadosamente as conexões existentes na memória. Cada canal de memória pode tomar decisões independentes, o que aumenta significativamente a flexibilidade e adaptabilidade do modelo para diferentes tipos de dados e tarefas complexas. Como resultado, o modelo pode processar sequências de texto mais longas sem perda de qualidade. A memória deixa de ser apenas um armazenamento de dados, mas um sistema inteligente que sabe o que esquecer e o que manter.

Resultados Impressionantes em Benchmarks

Em testes oficiais, Gated DeltaNet-2 mostrou uma vantagem notável sobre os concorrentes:

  • Superou Mamba-2 em tarefas padrão de modelagem de linguagem
  • Ultrapassou o Gated DeltaNet original e KDA no desempenho geral
  • Mostrou melhores resultados do que Mamba-3 em tarefas de contexto longo
  • Em RULER S-NIAH (busca de agulha no palheiro) tem as melhorias mais impressionantes
  • Em recuperação de múltiplas chaves mostra melhoria crítica para a prática

Particularmente notáveis são os resultados em tarefas de raciocínio de senso comum. Isto não é apenas modelagem de linguagem, mas compreensão lógica das relações entre conceitos. O gerenciamento separado de memória melhora não apenas a velocidade de computação, mas também a qualidade da compreensão das conexões lógicas — um sinal de que as decisões arquitetônicas influenciam profundamente a inteligência do modelo.

O Que Isso Significa

Gated DeltaNet-2 demonstra um princípio importante: a eficiência dos mecanismos de atenção linear depende não da ideia de linearidade em si, mas dos detalhes arquitetônicos de sua implementação. Quando os engenheiros separam corretamente as funções (apagamento vs. escrita), o sistema fica simultaneamente mais rápido e mais inteligente. Na prática, isso significa: os modelos poderão processar documentos com centenas de milhares de tokens sem perda de qualidade. Isso abre novas possibilidades para aplicações que exigem contexto longo — desde busca inteligente em grandes bases de dados de texto até sistemas de diálogo complexos que precisam lembrar todo o histórico da conversa.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…