MarkTechPost→ original

NVIDIA Presenta Gated DeltaNet-2: Atención Lineal con Compuertas de Memoria Separadas

NVIDIA presentó Gated DeltaNet-2 — un nuevo mecanismo de atención lineal para grandes modelos de lenguaje. La diferencia clave: en lugar de una única compuerta

Procesado por IA desde MarkTechPost; editado por Hamidun News
NVIDIA Presenta Gated DeltaNet-2: Atención Lineal con Compuertas de Memoria Separadas
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA ha presentado un nuevo mecanismo de atención lineal llamado Gated DeltaNet-2, que mejora significativamente la gestión de memoria en grandes modelos de lenguaje. La diferencia principal es la gestión separada de borrado de datos antiguos y escritura de datos nuevos, en lugar de una única puerta escalar utilizada en generaciones anteriores.

Problema con la Memoria en Modelos Lineales

Los mecanismos de atención lineal resuelven un problema crítico de los transformers: comprimen una caché KV ilimitada en un estado recurrente fijo. Esto permite procesar textos más largos de forma más eficiente y reduce significativamente el consumo de memoria, lo que es crítico para aplicaciones prácticas y dispositivos con recursos limitados. Sin embargo, hay un problema grave: editar la memoria sin perturbar las conexiones existentes es una tarea extremadamente difícil. Los modelos necesitan aprender simultáneamente hechos nuevos y preservar conocimiento antiguo. Agrega información nueva y corres el riesgo de sobrescribir asociaciones importantes. Olvida lo antiguo y pierdes el contexto. Este es el clásico conflicto entre aprendizaje y retención.

Modelos anteriores como Gated DeltaNet y KDA utilizaban una única puerta escalar para gestionar ambos procesos simultáneamente: borrado de datos antiguos y escritura de datos nuevos. Esto crea un conflicto irresoluble: una palanca no puede realizar eficientemente dos tareas contradictorias. El resultado es que la calidad del modelo sufre y el rendimiento en tareas complejas disminuye.

Cómo DeltaNet-2 Rediseñó la Arquitectura

NVIDIA decidió rediseñar radicalmente el sistema de gestión de memoria. En lugar de una única puerta escalar, Gated DeltaNet-2 utiliza dos puertas independientes por canal:

  • Puerta de borrado b_t en el eje de claves — gestiona la eliminación de información obsoleta
  • Puerta de escritura w_t en el eje de valores — controla la adición de nuevos datos
  • Cada puerta opera a nivel de canal (channel-wise), no como un escalar único para toda la memoria
  • Esto permite al modelo equilibrar de forma más flexible entre olvido y aprendizaje
  • La arquitectura contiene 1,3B parámetros, entrenada en 100B tokens

Esta separación permite al modelo entender: cuándo liberar información antigua y cuándo preservar y actualizar cuidadosamente las conexiones existentes en la memoria. Cada canal de memoria puede tomar decisiones independientes, lo que aumenta significativamente la flexibilidad y adaptabilidad del modelo a diferentes tipos de datos y tareas complejas. Como resultado, el modelo puede procesar secuencias de texto más largas sin pérdida de calidad. La memoria deja de ser solo un almacén de datos, sino un sistema inteligente que sabe qué olvidar y qué conservar.

Resultados Impresionantes en Benchmarks

En pruebas oficiales, Gated DeltaNet-2 mostró una ventaja notable sobre los competidores:

  • Superó a Mamba-2 en tareas estándar de modelado de lenguaje
  • Superó el Gated DeltaNet original y KDA en rendimiento general
  • Mostró mejores resultados que Mamba-3 en tareas de contexto largo
  • En RULER S-NIAH (búsqueda de aguja en un pajar) tiene las mejoras más impresionantes
  • En recuperación de múltiples claves muestra mejora crítica para la práctica

Particularmente notables son los resultados en tareas de razonamiento de sentido común. Esto no es solo modelado de lenguaje, sino comprensión lógica de las relaciones entre conceptos. La gestión separada de memoria mejora no solo la velocidad de cálculo, sino también la calidad de la comprensión de conexiones lógicas — una señal de que las decisiones arquitectónicas influyen profundamente en la inteligencia del modelo.

Lo Que Esto Significa

Gated DeltaNet-2 demuestra un principio importante: la eficiencia de los mecanismos de atención lineal depende no de la idea de linealidad en sí, sino de los detalles arquitectónicos de su implementación. Cuando los ingenieros separan correctamente las funciones (borrado vs. escritura), el sistema se vuelve simultáneamente más rápido e inteligente. En la práctica, esto significa: los modelos podrán procesar documentos con cientos de miles de tokens sin pérdida de calidad. Esto abre nuevas posibilidades para aplicaciones que requieren contexto largo — desde búsqueda inteligente en grandes bases de datos de texto hasta sistemas de diálogo complejos que necesitan recordar todo el historial de la conversación.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…