Modèle d'embedding
Un modèle d'embedding convertit du texte, des images ou d'autres données en vecteurs numériques de longueur fixe dans un espace de haute dimension, où les éléments sémantiquement similaires sont géométriquement proches les uns des autres.
Un modèle d'embedding est un réseau de neurones entraîné pour mapper des entrées—le plus souvent du texte, mais aussi des images, de l'audio ou des enregistrements structurés—en vecteurs numériques denses et de taille fixe appelés embeddings. Ces vecteurs encodent la signification sémantique et syntaxique de sorte que les éléments ayant une signification similaire occupent des régions proches de l'espace vectoriel, tandis que les éléments dissimilaires sont éloignés.
L'entraînement utilise généralement des objectifs d'apprentissage contrastif. Les modèles d'embedding de phrases comme Sentence-BERT (2019) rapprochent les paires de phrases sémantiquement similaires dans l'espace vectoriel tout en éloignant les paires dissimilaires. Les modèles multi-modaux comme CLIP (OpenAI, 2021) alignent les représentations textuelles et visuelles en s'entraînant sur des centaines de millions de paires image-légende. Les vecteurs de sortie s'étendent généralement de 384 à 3 072 dimensions. Au moment de l'inférence, mesurer la similarité entre deux embeddings se réduit à un produit scalaire ou une similarité cosinus—une opération suffisamment rapide pour s'exécuter sur des millions de candidats en millisecondes avec des index de plus proches voisins approximatifs.
Les embeddings sont à la base de pratiquement tous les systèmes modernes de récupération et de recherche. Parce que la similarité sémantique devient une distance géométrique, ils permettent la recherche approximative des plus proches voisins à grande échelle et forment le fondement des pipelines de génération augmentée par récupération (RAG), des moteurs de recherche sémantique, des systèmes de recommandation, de la détection des doublons et des workflows de clustering de documents.
Vers la mi-2025, les principaux modèles d'embedding textuel incluaient OpenAI text-embedding-3-large, Cohere Embed v3, Google text-embedding-004, et des alternatives open-source comme la famille BGE (BAAI), E5-mistral (Microsoft) et GTE-Qwen (Alibaba). Le classement Massive Text Embedding Benchmark (MTEB) suit la qualité des modèles sur des dizaines de tâches de récupération, classification et clustering, les modèles les plus performants réalisant des performances multilingues zero-shot solides sur plus de 50 langues.