Techniques et méthodes

Réclassement

Le réclassement est une technique de récupération en deux étapes qui d'abord récupère un large ensemble de candidats en utilisant une méthode rapide de bi-encoder ou basée sur les mots-clés, puis reclasse ces candidats avec un modèle de cross-encoder plus lent mais plus précis pour améliorer la qualité du classement final.

Le réclassement est une technique de récupération d'information en deux étapes utilisée pour améliorer la pertinence des résultats de recherche et de récupération de documents. À la première étape, une méthode rapide — telle que l'appariement de mots-clés BM25 ou une recherche vectorielle par plus proches voisins approximés (ANN) via des embeddings de bi-encoder — récupère rapidement un large ensemble de candidats, souvent 50–500 éléments, d'un corpus. À la deuxième étape, un modèle de réclassement réattribue les scores à chaque candidat par rapport à la requête d'origine et les réordonne pour mettre en avant les résultats les plus pertinents en haut.

Le cœur du réclasseur est généralement un cross-encoder : un transformer qui reçoit la requête et un document candidat concaténés en tant qu'entrée, permettant l'attention croisée complète entre eux. C'est computationnellement cher par rapport au calcul d'embeddings indépendamment, mais produit des scores de pertinence d'une qualité significativement supérieure. Les modèles de réclasseur largement utilisés incluent Cohere Rerank 3 (publié en avril 2024), la série BGE-Reranker-v2 de BAAI, et les modèles basés sur ColBERT qui utilisent l'interaction tardive entre embeddings au niveau du token comme milieu entre la vitesse et la précision.

Le réclassement est un composant critique dans les pipelines de génération augmentée par récupération (RAG), où seuls les passages reclassés top-k sont passés au modèle de langage en tant que contexte. Sans réclassement, les chunks marginalement pertinents peuvent déplacer ceux vraiment utiles, dégradant la qualité de la réponse générée. Le même modèle s'applique à la recherche d'entreprise, la découverte de documents juridiques et les systèmes d'assistance clientèle qui demandent une haute précision.

À partir de 2026, le réclassement est un bloc de construction standard dans les architectures RAG de production. Les API hébergées de Cohere, JinaAI et Voyage AI rendent l'ajout de réclassement simple sans auto-hébergement de l'infrastructure de modèles, et les frameworks comme LangChain et LlamaIndex fournissent des intégrations natives. La recherche continue sur la récupération creuse apprise et les modèles d'interaction tardive qui brouillent la limite entre la récupération en première étape et le réclassement.

Exemple

Dans un système RAG d'assistance clientèle, un bi-encoder récupère d'abord 100 articles de base de connaissances potentiellement pertinents en millisecondes ; un modèle Cohere Rerank 3 réattribue ensuite les scores à tous les 100 par rapport à la requête de l'utilisateur et retourne les 5 premiers au modèle de langage pour la génération de réponse.

Termes liés

Recherche sémantique RAG (Génération Augmentée par Récupération)Modèle d'embedding

← Glossaire