10 approches RAG qui fonctionnent réellement en production : du basique à GraphRAG
Un développeur sur Habr a compilé une liste pratique d'approches RAG réellement utilisées en production. La recherche hybride (dense + BM25) offre…
Traité par IA depuis Habr AI ; édité par Hamidun News
Un développeur sur Habr a compilé une liste pratique d'approches RAG qui fonctionnent réellement en production — basée sur l'expérience personnelle et l'analyse d'études de cas tiers au cours de la dernière année de croissance active de la pile LLM.
Par Où Tout Commence
Naive RAG — le point de départ pour la plupart des projets. Le schéma est simple : les documents sont divisés en chunks, indexés via embeddings, et lors d'une requête, les plus proches par distance cosinus sont trouvés et passés au LLM comme contexte. Fonctionne sur des bases de connaissances petites avec des questions simples et des documents homogènes. Les problèmes commencent à l'échelle : les longs documents ne rentrent pas bien dans des chunks fixes, les questions complexes nécessitent plusieurs fragments simultanément, et les formulations des utilisateurs ne correspondent souvent pas au style des documents. C'est là que les approches avancées entrent en jeu.
Recherche Hybride et Reranking
La recherche hybride — la première amélioration qui presque toujours vaut la peine. Combiner des vecteurs denses (recherche sémantique) avec BM25 (recherche par mots-clés) donne constamment +15–30% d'amélioration de précision par rapport à la seule recherche par embedding. Les vecteurs denses capturent la similarité sémantique, les vecteurs creux — les correspondances exactes sur les termes, abréviations et noms. Ajouter un reranker cross-encoder au-dessus des 20 principaux résultats améliore encore la qualité de 10–15%. Le reranker est un modèle plus lourd, mais ne fonctionne que sur l'ensemble final de candidats, la latence reste donc acceptable pour la production.
Techniques au Niveau de la Requête
Certains problèmes de RAG sont résolus plus efficacement avant la recherche — par reformulation ou expansion de la requête.
- HyDE — le LLM génère un document-réponse hypothétique, son vecteur est utilisé pour la recherche. Particulièrement utile quand le style de la question et le style des documents diffèrent considérablement.
- Multi-query — d'une question, 3–5 paraphrases sont générées, la recherche se fait en parallèle sur toutes. Réduit la dépendance à la formulation exacte de l'utilisateur.
- Step-back prompting — avant la recherche, le LLM généralise la requête à un niveau d'abstraction plus élevé. Utile quand la question spécifique est trop niche pour une bonne récupération.
- Parent Document Retriever — les petits chunks sont indexés (haute précision) et le document parent dans son intégralité est passé au contexte. Bon équilibre entre précision et couverture.
- Contextual compression — le LLM extrait seulement la partie pertinente du chunk trouvé. Économise les tokens et réduit le bruit dans le contexte.
Artillerie Lourde
Quand les techniques simples ne suffisent pas, des approches architecturalement plus complexes sont engagées.
RAPTOR construit un arbre hiérarchique de documents : regroupe les chunks, résume chaque cluster, puis regroupe à nouveau les résumés. À la requête, la recherche se fait au niveau d'abstraction nécessaire. Fonctionne bien sur les longs documents — manuels techniques, rapports financiers, livres avec différents niveaux de détail.
GraphRAG de Microsoft construit un graphe de connaissances : extrait les entités et relations du texte, crée des résumés de communauté pour différents clusters thématiques. Surpasse systématiquement le RAG standard sur les questions analytiques et comparatives — "comment X est-il lié à Y", "qu'est-ce qui a changé depuis le point A" — et sur les tâches nécessitant une synthèse sur l'ensemble du corpus.
Self-RAG et Corrective RAG basculent le système en mode agent : le modèle lui-même décide si la recherche est nécessaire, évalue la pertinence de ce qui a été trouvé et reformule la requête si nécessaire. Ajoute de la latence et de la complexité, mais améliore notablement la qualité sur les tâches multi-étapes et ambigües.
Ce Que Cela Signifie
Chemin pratique : commencez par la recherche hybride plus reranking — cela couvre la plupart des problèmes avec un coût minimal. Puis ajoutez multi-query ou HyDE pour des requêtes diverses. Connectez GraphRAG et Self-RAG seulement quand les techniques plus simples échouent : elles nécessitent des coûts de développement et de maintenance importants. Pour la plupart des produits B2B, les deux premiers pas suffisent.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.