NVIDIA Présente Gated DeltaNet-2: Attention Linéaire avec Portes Mémoire Séparées
NVIDIA a présenté Gated DeltaNet-2 — un nouveau mécanisme d'attention linéaire pour les grands modèles de langage. La différence clé: au lieu d'une seule porte

NVIDIA a présenté un nouveau mécanisme d'attention linéaire appelé Gated DeltaNet-2, qui améliore considérablement la gestion de la mémoire dans les grands modèles de langage. La principale différence est la gestion séparée de l'effacement des anciennes données et de l'écriture des nouvelles données, au lieu d'une seule porte scalaire utilisée dans les générations précédentes.
Problème avec la Mémoire dans les Modèles Linéaires
Les mécanismes d'attention linéaire résolvent un problème critique des transformers : ils compriment un cache KV illimité dans un état récurrent fixe. Cela permet de traiter des textes plus longs de manière plus efficace et réduit considérablement la consommation de mémoire, ce qui est critique pour les applications pratiques et les appareils disposant de ressources limitées. Cependant, il y a un problème grave : modifier la mémoire sans perturber les connexions existantes est une tâche extrêmement difficile. Les modèles doivent simultanément apprendre de nouveaux faits et préserver les connaissances anciennes. Ajoutez une nouvelle information et vous risquez de remplacer des associations importantes. Oubliez l'ancien et vous perdez le contexte. C'est le conflit classique entre l'apprentissage et la rétention.
Les modèles précédents comme Gated DeltaNet et KDA utilisaient une seule porte scalaire pour gérer les deux processus simultanément : effacement des anciennes données et écriture des nouvelles données. Cela crée un conflit insoluble : un seul levier ne peut pas effectuer efficacement deux tâches contradictoires. Le résultat est que la qualité du modèle souffre et les performances sur les tâches complexes diminuent.
Comment DeltaNet-2 a Repensé l'Architecture
NVIDIA a décidé de repenser radicalement le système de gestion de la mémoire. Au lieu d'une seule porte scalaire, Gated DeltaNet-2 utilise deux portes indépendantes par canal :
- Porte d'effacement b_t sur l'axe des clés — gère la suppression des informations obsolètes
- Porte d'écriture w_t sur l'axe des valeurs — contrôle l'ajout de nouvelles données
- Chaque porte fonctionne au niveau du canal (channel-wise), pas comme un scalaire unique pour toute la mémoire
- Cela permet au modèle d'équilibrer de manière plus flexible entre l'oubli et l'apprentissage
- L'architecture contient 1,3B paramètres, entraînée sur 100B tokens
Cette séparation permet au modèle de comprendre : quand libérer les informations anciennes et quand préserver et mettre à jour avec prudence les connexions existantes en mémoire. Chaque canal de mémoire peut prendre des décisions indépendantes, ce qui augmente considérablement la flexibilité et l'adaptabilité du modèle à différents types de données et tâches complexes. En résultat, le modèle peut traiter des séquences de texte plus longues sans perte de qualité. La mémoire ne devient plus seulement un stockage de données, mais un système intelligent qui sait quoi oublier et quoi conserver.
Résultats Impressionnants sur les Benchmarks
Lors des tests officiels, Gated DeltaNet-2 a montré un avantage notable par rapport aux concurrents :
- A surpassé Mamba-2 sur les tâches standard de modélisation du langage
- A dépassé le Gated DeltaNet original et KDA en performance globale
- A montré de meilleurs résultats que Mamba-3 sur les tâches de contexte long
- Sur RULER S-NIAH (recherche d'aiguille dans une meule de foin) a les améliorations les plus impressionnantes
- Sur la récupération de multi-clés montre une amélioration critique pour la pratique
Particullièrement remarquables sont les résultats sur les tâches de raisonnement de sens commun. Ce n'est pas seulement de la modélisation du langage, mais la compréhension logique des relations entre les concepts. La gestion séparée de la mémoire améliore non seulement la vitesse de calcul, mais aussi la qualité de la compréhension des connexions logiques — un signe que les décisions architecturales influencent profondément l'intelligence du modèle.
Ce Que Cela Signifie
Gated DeltaNet-2 démontre un principe important : l'efficacité des mécanismes d'attention linéaire dépend non de l'idée de linéarité elle-même, mais des détails architecturaux de sa mise en œuvre. Quand les ingénieurs séparent correctement les fonctions (effacement vs. écriture), le système devient simultanément plus rapide et plus intelligent. En pratique, cela signifie : les modèles pourront traiter des documents avec des centaines de milliers de tokens sans perte de qualité. Cela ouvre de nouvelles possibilités pour les applications nécessitant un contexte long — de la recherche intelligente dans de grandes bases de données de texte aux systèmes de dialogue complexes qui doivent se souvenir de tout l'historique de la conversation.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.