Techniques et méthodes

Embedding

Un embedding est un vecteur numérique dense de longueur fixe qui représente des données — du texte, une image ou de l'audio — dans un espace de haute dimensionnalité où les éléments sémantiquement similaires sont géométriquement proches les uns des autres.

En apprentissage automatique, un embedding mappe des entrées discrètes ou de haute dimensionnalité vers un espace vectoriel continu de 256 à 4096 dimensions environ. La propriété définissante est que la proximité géométrique dans cet espace correspond à la similarité sémantique : les vecteurs pour « chat » et « félin » seront proches, tandis que les vecteurs pour « chat » et « automobile » seront éloignés. Les embeddings peuvent représenter des mots, des phrases, des documents, des images, du code, des structures moléculaires, ou tout autre type de données pour lequel un modèle encodeur a été entraîné.

Les embeddings de texte sont produits par des réseaux de neurones basés sur des encodeurs — comme les transformers de style BERT — ou par regroupement (pooling) des états cachés de grands modèles génératifs. L'encodeur traite une entrée et retourne un seul vecteur, souvent la moyenne des états cachés finaux ou une représentation de token [CLS] spéciale. Les modèles d'embedding sont entraînés en utilisant des objectifs tels que l'apprentissage contrastif sur des paires d'exemples sémantiquement similaires et dissimilaires, enseignant au modèle de placer les éléments similaires proches les uns des autres et les éléments dissimilaires loin dans l'espace vectoriel. La similarité entre deux embeddings est ensuite mesurée par la similarité cosinus ou le produit scalaire.

Les embeddings sont la composante fondatrice de la recherche sémantique, de la génération augmentée par récupération, des systèmes de recommandation et de nombreux pipelines de classification et de regroupement. Ils permettent aux systèmes de fonctionner sur le sens plutôt que sur la forme de surface : une requête sur « maintenance de véhicules » peut correspondre à des documents sur « réparation automobile » même s'il n'y a pas de mots-clés communs. Les embeddings multimodaux — qui placent le texte et les images dans le même espace vectoriel — alimentent la recherche intermodale, comme l'interrogation d'une base de données d'images avec une description textuelle.

Les principaux modèles d'embedding à partir de 2026 incluent text-embedding-3-large d'OpenAI (3072 dimensions), Cohere Embed v3, la famille d'embeddings Gecko de Google, et des modèles open-source du classement Massive Text Embedding Benchmark (MTEB). La qualité est évaluée sur MTEB sur les tâches de récupération, classification, regroupement et similarité sémantique dans plusieurs langues. L'apprentissage de représentation Matryoshka permet aux praticiens de tronquer les vecteurs d'embedding à des dimensions plus petites avec une dégradation de précision progressive, permettant des compromis coût-qualité au moment de l'inférence.

Exemple

Une plateforme de commerce électronique encode toutes les descriptions de produits en embeddings de 1536 dimensions au moment de l'indexation ; lorsqu'un utilisateur tape « chaussures confortables pour les longues promenades », la requête est transformée en embedding et les vecteurs de produits les plus proches sont retournés, mettant en avant les résultats pertinents même si aucun ne contient ces mots exacts.

Termes liés

Base de données vectorielle Modèle d'embedding Recherche sémantique Tokenization

Dernières actualités sur le sujet

Clustering de textes sans étiquetage : embeddings de LLM et HDBSCAN de Machine Learning Mastery2026-06-29 Machine Learning Mastery : recherche sémantique avec embeddings au lieu de mots-clés2026-05-25 Vector search en Python depuis zéro : embeddings et recherche par similarité2026-05-17 De TF-IDF à Word2vec : Beeline Cloud a publié une sélection sur les embeddings2026-05-17 IBM a lancé Granite Embedding R2 — un modèle multilingue pour la recherche sémantique2026-05-16

← Glossaire