Techniques et méthodes

Recherche sémantique

La recherche sémantique est une méthode de récupération qui apparie les requêtes aux documents basée sur le sens conceptuel plutôt que sur le chevauchement de mots-clés, utilisant des vecteurs d'embedding et des métriques de similarité pour mettre en avant les résultats contextuellement pertinents indépendamment de la formulation exacte.

La recherche lexicale traditionnelle (BM25, TF-IDF) score les documents par le nombre de termes de requête qu'ils contiennent et la rareté de ces termes — c'est fondamentalement un exercice de comptage de mots. La recherche sémantique remplace cela par une opération géométrique dans l'espace des embeddings : à la fois la requête et chaque document candidat sont encodés en vecteurs denses, et la récupération est effectuée en trouvant les vecteurs les plus proches du vecteur de requête. Parce que le modèle d'embedding a appris que « voiture » et « automobile » sont sémantiquement liés, les documents sur les automobiles se classent hautement pour une requête sur les voitures même si le mot « voiture » n'apparaît jamais dans ces documents.

Un système de recherche sémantique fonctionne en deux phases. Hors ligne, un corpus de documents est encodé par un modèle d'embedding et les vecteurs résultants sont stockés dans une base de données vectorielle avec un index ANN. En ligne, la requête de l'utilisateur est encodée par le même modèle et l'index récupère les K vecteurs de documents les plus similaires, classés par similarité cosinus ou produit scalaire. En production, la récupération sémantique (dense) est couramment combinée avec la récupération lexicale (creuse) dans une architecture hybride : BM25 récupère les correspondances de mots-clés, un index ANN récupère les correspondances sémantiques, et les résultats combinés sont réclassés par un modèle de cross-encoder qui score chaque candidat en lisant la requête et le document conjointement.

La recherche sémantique résout le problème de décalage de vocabulaire qui afflige les systèmes lexicaux : les utilisateurs formulent rarement les requêtes en utilisant les mêmes mots que les auteurs utilisent dans les documents. Elle améliore le rappel pour les paraphrases, les synonymes et les requêtes conceptuelles, et elle permet la récupération multilingue car les modèles d'embedding multilingues placent les phrases équivalentes dans différentes langues proches les unes des autres dans l'espace vectoriel. Pour les bases de connaissances d'entreprise, les catalogues de produits et la littérature scientifique, la recherche sémantique met en avant le contenu pertinent que les systèmes de mots-clés manqueraient entièrement.

À partir de 2026, la recherche sémantique est un composant standard des plates-formes de recherche d'entreprise incluant Microsoft SharePoint Copilot, Elastic avec ELSER et Algolia NeuralSearch, ainsi que la couche de récupération de la plupart des pipelines RAG. L'approche de production dominante est la recherche hybride avec réclassement : récupération dense pour le rappel, récupération creuse pour la précision, et un cross-encoder pour l'ordonnancement final. Un défi restant est la gestion des très longs documents : l'embedding naïf de document complet perd les informations granulaires, entraînant l'adoption de stratégies de chunking et de modèles d'interaction tardive comme ColBERT qui comparent la requête et le document au niveau du token.

Exemple

La base de connaissances interne d'une entreprise pharmaceutique utilise la recherche sémantique de sorte que les chercheurs interrogeant « mécanismes de la résistance aux médicaments en oncologie » récupèrent des articles discutant « adaptation des cellules tumorales aux agents de chimiothérapie » — des résultats qu'une recherche par mot-clé manquerait — réduisant considérablement le temps d'examen de la littérature.

Termes liés

Dernières actualités sur le sujet

← Glossaire