Habr AI→ original

La géométrie de l'attention : comment QK Norm apprend au modèle à comprendre le sens

QK Norm dans les transformers, ce n’est pas seulement de la stabilisation. La normalisation ramène le produit scalaire à une similarité cosinus, forçant le rése

Traité par IA depuis Habr AI ; édité par Hamidun News
La géométrie de l'attention : comment QK Norm apprend au modèle à comprendre le sens
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

QK Norm — normalisation de la query et de la key avant le produit scalaire dans le mécanisme d'attention — est souvent perçue comme un détail technique pour la stabilité numérique. En réalité, c'est une profonde contrainte géométrique qui force le transformer à exprimer le sens d'une manière complètement différente.

Problème sans normalisation

Les couches de réseau sont paresseuses. Quand il n'y a pas de normes, au lieu de faire tourner intelligemment les vecteurs et d'exprimer le sens par des relations angulaires, le transformer prend le chemin simple : augmente la magnitude. Un token important devient simplement plus fort.

Il le fait parce qu'il peut. Le produit scalaire q⃗ · k⃗ = |q⃗| |k⃗| cos(θ) augmente à la fois par l'angle et par la magnitude. Le réseau apprend les deux : regarde l'angle et gonfle le vecteur.

Et gonfler est moins cher que comprendre. Cela conduit à « attention sink » — quand les tokens grammaticaux de fonction (virgules, articles, pronoms) commencent à dominer parce qu'ils apparaissent fréquemment et accumuleront naturellement une grande magnitude.

Comment fonctionne QK Norm

La normalisation est une contrainte. Quand nous normalisons la query et la key à longueur unitaire, le produit scalaire devient une similitude cosinus. Les vecteurs sont « verrouillés » sur une hypersphère N-dimensionnelle. Maintenant, le réseau ne peut pas gonfler le vecteur pour attirer l'attention. Il ne reste qu'une option : faire tourner le vecteur pour que son angle avec les autres vecteurs exprime la relation sémantique souhaitée. Si vous avez besoin d'une connexion entre les mots — montrez-la avec un angle, pas avec un volume. Cela change fondamentalement le fonctionnement des représentations internes :

  • Le sens est codé par les angles entre les vecteurs, non par leur magnitude
  • Tous les tokens sont à égale distance de l'origine
  • Les mots rares ne sont pas perdus parce que sur une hypersphère tous sont égaux
  • L'attention est basée sur la similitude sémantique, non sur la fréquence

Bonne place dans l'architecture

Un détail critique : QK Norm doit venir avant RoPE (Rotary Position Embedding), pas après. Si la normalisation est appliquée après RoPE, l'information positionnelle devient floue et n'est pas codée correctement. Ordre : normaliser query-key → puis RoPE.

Ce que cela signifie

Ce n'est pas simplement un tour d'ingénierie pour la stabilité numérique — c'est une redéfinition de ce que « attention » signifie au niveau géométrique. Un réseau qui s'appuie sur les angles au lieu des magnitudes apprend à généraliser mieux sur les tokens rares et évite l'habitude d'être dominé par les mots de fonction. Sans résultats empiriques sur des modèles de milliards de paramètres, cela reste un argument théorique, mais la logique géométrique est solide.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…