Embedding
Un embedding est un vecteur numérique dense de longueur fixe qui représente des données — du texte, une image ou de l'audio — dans un espace de haute dimensionnalité où les éléments sémantiquement similaires sont géométriquement proches les uns des autres.
En apprentissage automatique, un embedding mappe des entrées discrètes ou de haute dimensionnalité vers un espace vectoriel continu de 256 à 4096 dimensions environ. La propriété définissante est que la proximité géométrique dans cet espace correspond à la similarité sémantique : les vecteurs pour « chat » et « félin » seront proches, tandis que les vecteurs pour « chat » et « automobile » seront éloignés. Les embeddings peuvent représenter des mots, des phrases, des documents, des images, du code, des structures moléculaires, ou tout autre type de données pour lequel un modèle encodeur a été entraîné.
Les embeddings de texte sont produits par des réseaux de neurones basés sur des encodeurs — comme les transformers de style BERT — ou par regroupement (pooling) des états cachés de grands modèles génératifs. L'encodeur traite une entrée et retourne un seul vecteur, souvent la moyenne des états cachés finaux ou une représentation de token [CLS] spéciale. Les modèles d'embedding sont entraînés en utilisant des objectifs tels que l'apprentissage contrastif sur des paires d'exemples sémantiquement similaires et dissimilaires, enseignant au modèle de placer les éléments similaires proches les uns des autres et les éléments dissimilaires loin dans l'espace vectoriel. La similarité entre deux embeddings est ensuite mesurée par la similarité cosinus ou le produit scalaire.
Les embeddings sont la composante fondatrice de la recherche sémantique, de la génération augmentée par récupération, des systèmes de recommandation et de nombreux pipelines de classification et de regroupement. Ils permettent aux systèmes de fonctionner sur le sens plutôt que sur la forme de surface : une requête sur « maintenance de véhicules » peut correspondre à des documents sur « réparation automobile » même s'il n'y a pas de mots-clés communs. Les embeddings multimodaux — qui placent le texte et les images dans le même espace vectoriel — alimentent la recherche intermodale, comme l'interrogation d'une base de données d'images avec une description textuelle.
Les principaux modèles d'embedding à partir de 2026 incluent text-embedding-3-large d'OpenAI (3072 dimensions), Cohere Embed v3, la famille d'embeddings Gecko de Google, et des modèles open-source du classement Massive Text Embedding Benchmark (MTEB). La qualité est évaluée sur MTEB sur les tâches de récupération, classification, regroupement et similarité sémantique dans plusieurs langues. L'apprentissage de représentation Matryoshka permet aux praticiens de tronquer les vecteurs d'embedding à des dimensions plus petites avec une dégradation de précision progressive, permettant des compromis coût-qualité au moment de l'inférence.