Habr AI→ original

Comment le produit scalaire d'un manuel d'algèbre est devenu le fondement de ChatGPT, Claude et Gemini

En 2017, Google a publié "Attention is All You Need" — et les réseaux de neurones n'ont jamais été les mêmes. Aujourd'hui, ChatGPT, Claude, Gemini et…

Traité par IA depuis Habr AI ; édité par Hamidun News
Comment le produit scalaire d'un manuel d'algèbre est devenu le fondement de ChatGPT, Claude et Gemini
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

En 2017, un groupe d'ingénieurs de Google a publié l'article "Attention is All You Need" — et il a silencieusement divisé l'histoire de l'intelligence artificielle en "avant" et "après". Sans fanfare ni robots humanoides, huit chercheurs ont décrit une architecture qui aujourd'hui sous-tend ChatGPT, Claude, Gemini, Midjourney et pratiquement tout l'IA générative moderne. La chose la plus remarquable — le fondement de cette révolution s'avère être l'une des opérations les plus simples de l'algèbre linéaire : le produit scalaire de deux vecteurs.

Le Mur Contre Lequel se Sont Heurtés les Réseaux de Neurones

Avant les transformers, les réseaux récurrents — RNNs et LSTMs — dominaient le traitement du texte. Ils lisaient les phrases séquentiellement : mot par mot, étape par étape. Le problème était qu'à la fin d'un texte long, le modèle "oubliait" le début — le signal s'atténuait en traversant des centaines d'étapes intermédiaires.

Ceci s'appelait le problème du gradient décroissant. Imaginez : un modèle lit un roman et au cinquième chapitre a déjà oublié le nom du protagoniste. C'est exactement le mur contre lequel les réseaux de neurones se sont heurtés au milieu des années 2010.

L'architecture ne s'adaptait pas bien, le calcul parallèle était pratiquement indisponible — chaque étape suivante dépendait de la précédente. Il fallait quelque chose de fondamentalement différent.

Pourquoi le Produit Scalaire est Génialement Simple

Le produit scalaire est une opération du cours standard d'algèbre vectorielle. Vous prenez deux vecteurs, multipliez leurs coordonnées par paires et additionnez tous les résultats. La sortie est un nombre : plus il est grand, plus les vecteurs sont "similaires" ou "proches" l'un de l'autre. Dans le mécanisme d'auto-attention d'un transformer, cette opération est appliquée comme suit :

  • Chaque mot se transforme en trois vecteurs : Query (requête), Key (clé) et Value (valeur)
  • Le produit scalaire de la Query d'un mot avec la Key de chaque autre mot montre la "force de connexion" entre une paire de mots
  • Les résultats sont mises à l'échelle et normalisés via softmax — résultant en poids d'attention de 0 à 1
  • Le vecteur final d'un mot est une somme pondérée de tous les Values selon ces poids

Essentiellement, chaque token pose simultanément la question à tous les autres : "Quelle est ton importance pour ma compréhension en ce moment?" — et reçoit une réponse numérique précise. Cela se produit en parallèle pour la phrase entière, et non séquentiellement mot par mot.

Trois Propriétés Qui Ont Changé l'Industrie

Le produit scalaire s'avère être l'opération idéale pour le langage pour plusieurs raisons à la fois.

Parallélisme. Tous les calculs d'attention peuvent être effectués simultanément — contrairement aux RNNs, où chaque étape dépend de la précédente. Cela a débloqué les GPUs et TPUs et a permis de mettre à l'échelle les modèles à des centaines de milliards de paramètres. C'est ainsi que BERT, GPT-3, puis GPT-4 et Claude sont apparus au cours de plusieurs années.

Contexte global sans décroissance. Chaque mot "voit" immédiatement tous les autres — indépendamment de la distance dans le texte. Le pronom "il" à la fin d'un long paragraphe se lie correctement au nom du personnage du tout début. Aucune atténuation du signal à travers les couches intermédiaires.

Interprétabilité. Les matrices d'attention peuvent être visualisées — littéralement voir quel mot prête attention à quoi lors du traitement d'une phrase. Ceci est rare dans le monde des réseaux de neurones, où la plupart des décisions restent une boîte noire.

"Nous n'avons besoin ni de récurrence ni de convolutions du tout", ont écrit les auteurs en 2017.

Pour la communauté à l'époque, cela sonnait comme une hérésie. Trois ans plus tard, c'est devenu un axiome.

Ce Que Cela Signifie

Le transformer a prouvé : une révolution dans l'IA peut venir non de la neurobiologie et non de la philosophie de la conscience, mais d'un manuel d'algèbre linéaire de deuxième année. ChatGPT, Claude, Gemini, Midjourney — ils multiplient tous dans leur essence des matrices de produits scalaires des milliards de fois par seconde. La simplicité de l'opération s'avère être sa principale force : non pas la complication, mais le bon choix d'un outil élémentaire a changé tout.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).

Qu'en pensez-vous ?
Chargement des commentaires…