La géométrie de l'attention : comment QK Norm apprend au modèle à comprendre le sens
QK Norm dans les transformers, ce n’est pas seulement de la stabilisation. La normalisation ramène le produit scalaire à une similarité cosinus, forçant le rése
Traité par IA depuis Habr AI ; édité par Hamidun News
QK Norm — normalisation de la query et de la key avant le produit scalaire dans le mécanisme d'attention — est souvent perçue comme un détail technique pour la stabilité numérique. En réalité, c'est une profonde contrainte géométrique qui force le transformer à exprimer le sens d'une manière complètement différente.
Problème sans normalisation
Les couches de réseau sont paresseuses. Quand il n'y a pas de normes, au lieu de faire tourner intelligemment les vecteurs et d'exprimer le sens par des relations angulaires, le transformer prend le chemin simple : augmente la magnitude. Un token important devient simplement plus fort.
Il le fait parce qu'il peut. Le produit scalaire q⃗ · k⃗ = |q⃗| |k⃗| cos(θ) augmente à la fois par l'angle et par la magnitude. Le réseau apprend les deux : regarde l'angle et gonfle le vecteur.
Et gonfler est moins cher que comprendre. Cela conduit à « attention sink » — quand les tokens grammaticaux de fonction (virgules, articles, pronoms) commencent à dominer parce qu'ils apparaissent fréquemment et accumuleront naturellement une grande magnitude.
Comment fonctionne QK Norm
La normalisation est une contrainte. Quand nous normalisons la query et la key à longueur unitaire, le produit scalaire devient une similitude cosinus. Les vecteurs sont « verrouillés » sur une hypersphère N-dimensionnelle. Maintenant, le réseau ne peut pas gonfler le vecteur pour attirer l'attention. Il ne reste qu'une option : faire tourner le vecteur pour que son angle avec les autres vecteurs exprime la relation sémantique souhaitée. Si vous avez besoin d'une connexion entre les mots — montrez-la avec un angle, pas avec un volume. Cela change fondamentalement le fonctionnement des représentations internes :
- Le sens est codé par les angles entre les vecteurs, non par leur magnitude
- Tous les tokens sont à égale distance de l'origine
- Les mots rares ne sont pas perdus parce que sur une hypersphère tous sont égaux
- L'attention est basée sur la similitude sémantique, non sur la fréquence
Bonne place dans l'architecture
Un détail critique : QK Norm doit venir avant RoPE (Rotary Position Embedding), pas après. Si la normalisation est appliquée après RoPE, l'information positionnelle devient floue et n'est pas codée correctement. Ordre : normaliser query-key → puis RoPE.
Ce que cela signifie
Ce n'est pas simplement un tour d'ingénierie pour la stabilité numérique — c'est une redéfinition de ce que « attention » signifie au niveau géométrique. Un réseau qui s'appuie sur les angles au lieu des magnitudes apprend à généraliser mieux sur les tokens rares et évite l'habitude d'être dominé par les mots de fonction. Sans résultats empiriques sur des modèles de milliards de paramètres, cela reste un argument théorique, mais la logique géométrique est solide.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.