MarkTechPost→ original

Moonshot AI a présenté Attention Residuals — une alternative aux connexions résiduelles dans les transformers

Moonshot AI a présenté Attention Residuals, une nouvelle manière de combiner les signaux entre les couches d’un transformer non pas par une somme fixe, mais…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
Moonshot AI a présenté Attention Residuals — une alternative aux connexions résiduelles dans les transformers
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Moonshot AI a lancé Attention Residuals — une mise à jour architecturale pour les transformers qui change l'un des éléments les plus fondamentaux du modèle : les connexions résiduelles. Au lieu d'une somme fixe des sorties de toutes les couches précédentes, l'équipe propose une attention depth-wise, permettant au modèle de décider quelles représentations de la profondeur du réseau il a réellement besoin.

Où Se Trouve le Goulot d'Étranglement

Dans la plupart des LLMs modernes, chaque nouvelle couche ne traite pas seulement l'entrée, mais ajoute son résultat à l'état caché global. Un tel schéma, hérité de l'approche résiduelle et particulièrement populaire dans les architectures PreNorm, aide à entraîner des réseaux profonds sans effondrement du gradient. Mais cela a un prix : toutes les représentations précédentes sont mélangées avec un poids égal, et leur contribution devient de plus en plus floue au fil du temps.

À mesure que la profondeur augmente, les états cachés augmentent approximativement linéairement, rendant de plus en plus difficile l'extraction de signaux précoces sous une forme utile. Moonshot AI appelle cela le problème d'agrégation depth-wise : le modèle a bien appris à sélectionner les tokens importants par séquence et à acheminer les experts en MoE, mais sur toute la profondeur du réseau, il repose toujours sur une somme fixe. Les chercheurs établissent une analogie directe avec l'ère RNN : autrefois, la séquence était également comprimée en un état unique, jusqu'à ce que l'attention donne à chaque token l'accès à toutes les étapes précédentes.

Ici, ils proposent de faire presque la même chose, seulement dans les couches au lieu du temps.

Comment Fonctionne AttnRes

Dans Attention Residuals, chaque couche reçoit non pas une somme de toutes les sorties précédentes, mais une combinaison pondérée de représentations précédentes via softmax-attention. Le poids dépend de la couche elle-même et des données d'entrée, de sorte que le réseau peut amplifier les signaux utiles et supprimer le bruit plutôt que d'hériter de tout également. Dans la variante pratique, cela utilise un mécanisme très léger : un vecteur pseudo-requête apprenable par couche.

De ce fait, l'idée ne ressemble pas à une restructuration radicale du transformer, mais à un remplacement relativement compact du schéma résiduel familier. La version complète d'AttnRes nécessite de stocker tous les états précédents, donc pour les grands modèles, Moonshot AI propose Block AttnRes. Les couches sont divisées en blocs, dans lesquels l'accumulation normale reste, tandis que l'attention est appliquée entre les représentations résumées des blocs.

Selon l'équipe, une configuration avec environ huit blocs préserve la plupart des gains de la version complète, réduit les besoins en mémoire et en communications de O(Ld) à O(Nd), et maintient la latence d'inférence supplémentaire en dessous de 2%.

Ce Que les Tests Ont Montré

Moonshot AI a testé l'approche non seulement sur des expériences de loi d'échelle, mais aussi sur un grand modèle Kimi Linear pré-entraîné avec 48 milliards de paramètres, dont 3 milliards sont actifs, entraîné sur 1,4 trillions de tokens. La thèse clé est celle-ci : Block AttnRes atteint la même fonction de perte que le modèle de base entraîné avec un budget de calcul 1,25 fois plus grand. C'est-à-dire, non pas un ajustement cosmétique, mais un passage à l'échelle potentiellement plus favorable.

  • GPQA-Diamond : 36.9 → 44.4
  • HumanEval : 59.1 → 62.2
  • MMLU : 73.5 → 74.6
  • C-Eval : 79.6 → 82.5
  • Latence d'inférence : moins de 2%

La dynamique d'apprentissage est particulièrement importante. Dans le rapport, l'équipe note qu'AttnRes atténue l'effet de dilution PreNorm : l'amplitude des états cachés ne se disperse pas avec la profondeur, et les normes de gradient sont distribuées plus uniformément sur les couches. En pratique, cela signifie un apprentissage plus contrôlable et une probabilité plus faible qu'une partie de la profondeur du modèle agisse comme du lest coûteux mais faiblement utile. Les gains les plus notables ont été réalisés dans le raisonnement multi-étapes et la génération de code, ce qui rend le travail particulièrement intéressant pour les futurs LLMs et systèmes d'agents.

Ce Que Cela Signifie

Ce n'est pas un nouveau chatbot ni une fonctionnalité utilisateur, mais une tentative de réécrire l'un des blocs de construction de base des transformers. Si les résultats de Moonshot AI sont confirmés sur d'autres architectures et dans les piles industrielles, la course à la qualité des LLMs sera de plus en plus impulsée non seulement par plus de données et de GPUs, mais par une mécanique interne plus intelligente des modèles eux-mêmes.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…