Machine Learning Mastery a expliqué comment construire un long-context RAG sans tokens superflus

Machine Learning Mastery a publié une analyse pratique du long-context RAG. Même les modèles dotés d’une très grande fenêtre de contexte rencontrent encore…

Rédaction de Hamidun News

Veille IA · Machine Learning Mastery

2 mai 2026· 3 min

Traité par IA depuis Machine Learning Mastery ; édité par Hamidun News

Machine Learning Mastery a expliqué comment construire un long-context RAG sans tokens superflus — Source : Machine Learning Mastery. Collage: Hamidun News.

◐ Écouter l'article

Le 15 avril 2026, Machine Learning Mastery a publié une analyse pratique sur la façon de construire RAG avec contexte long sans gaspiller des tokens supplémentaires et sans perdre la qualité des réponses. La conclusion principale de l'article est simple : même les modèles avec des fenêtres de centaines de milliers et de millions de tokens n'éliminent pas RAG, mais forcent à reconstruire son architecture.

Pourquoi le Contexte Long N'Économise Pas

Il n'y a pas longtemps, le conseil standard pour RAG sonnait ainsi : diviser les documents en petits fragments, les convertir en embeddings et récupérer les fragments les plus pertinents. Cela était motivé par les limitations des LLMs eux-mêmes : le contexte était coûteux et s'épuisait rapidement. Maintenant, les développeurs disposent de modèles avec des fenêtres d'un million de tokens, et la tentation est évidente — charger simplement la réglementation complète, toutes les instructions ou l'ensemble de la base de connaissances dans le prompt.

Mais en pratique, cette approche se heurte rapidement à deux problèmes. Le premier est l'effet Lost in the Middle, quand le modèle remarque moins bien les informations importantes si elles sont cachées au milieu d'un contexte long. Le second est le coût : traiter un énorme volume de texte à travers le modèle à chaque requête est lent et coûteux.

En conséquence, RAG avec contexte long se transforme d'une tâche « comment insérer plus de texte » en une tâche « comment donner au modèle exactement le contexte sur lequel il prêtera réellement attention ».

Cinq Techniques qui Fonctionnent

Machine Learning Mastery propose non pas une balle magique, mais un ensemble de techniques pratiques qui peuvent être combinées dans un pipeline. L'idée est non seulement de rechercher des documents, mais de gérer l'ordre, le volume et la méthode de livraison du contexte au modèle. Il s'agit d'un changement notable par rapport à l'ancienne approche RAG, où après la récupération les fragments trouvés étaient presque automatiquement envoyés au prompt sans logique supplémentaire à chaque étape et contrôle de qualité.

Reranking après récupération — d'abord prendre un ensemble élargi de candidats, puis les réordonner avec un modèle séparé.
Caching de contexte — charger une fois un document volumineux dans le cache et ensuite transmettre au modèle uniquement la question et la référence à ce contexte.
Chunking dynamique + filtres de métadonnées — diviser les documents en blocs significatifs et les filtrer par sections, dates, pages et autres métadonnées.
Récupération hybride — combiner la recherche sémantique et la recherche exacte par mot-clé pour ne pas perdre les correspondances littérales dans les requêtes techniques.
Expansion de requête — élargir la question initiale avec des formulations supplémentaires si l'utilisateur l'a posée trop généralement ou conversationnellement.

La partie la plus intéressante n'est pas la liste elle-même, mais la façon dont les techniques s'interconnectent. Par exemple, l'article recommande d'abord de récupérer non pas les 5 premiers, mais, disons, les 20 premiers candidats de la base de données vectorielle, puis de les passer par un reranker et seulement ensuite de placer les meilleurs documents dans le prompt stratégiquement : le plus pertinent au début, le deuxième plus important à la fin, le reste entre les deux. De cette façon, le développeur ne combat pas les limitations de l'attention du modèle, mais s'y adapte.

Comment le Pipeline Change

L'article montre clairement que RAG moderne pour contexte long devient plus proche de l'ingénierie de recherche que du simple « retrieve-and-dump ». Si vous avez une base de connaissances statique, comme un manuel volumineux ou des réglementations internes, le caching de contexte élimine le besoin de retraiter des centaines de milliers de tokens et réduit considérablement la latence. Cela est particulièrement utile pour les chatbots d'assistance et les assistants internes qui répondent à plusieurs reprises à partir du même corpus de documents.

Une autre couche importante est les métadonnées et la recherche hybride. La récupération sémantique comprend bien le sens, mais peut manquer le nom exact d'un paramètre, le code d'erreur ou le numéro de section. La recherche par mot-clé, en revanche, s'accroche aux correspondances littérales. Par conséquent, l'auteur conseille de combiner les deux canaux et de fusionner leurs résultats par rank fusion. En plus de cela, un filtrage par structure de document est ajouté : les sections inutiles, les dates ou les pages sont d'abord supprimées, et ce n'est qu'ensuite que la recherche de similarité est exécutée. Cela réduit le bruit et rend le contexte final notablement plus propre.

Enfin, l'expansion de requête aide dans les cas où l'utilisateur formule une question différemment de la façon dont l'information est enregistrée dans les documents. Si une personne demande « que faire si l'alarme incendie se déclenche », le système peut générer des options supplémentaires comme « procédure d'évacuation », « point de rassemblement » ou « sortie de secours ». Grâce à cela, la récupération trouve non seulement les correspondances directes, mais aussi les instructions sémantiquement proches. Pour les connaissances d'entreprise, les documents de conformité et la documentation technique, c'est particulièrement précieux.

Ce Que Cela Signifie

L'article de Machine Learning Mastery fixe un changement important : les modèles avec contexte long n'ont pas tué RAG, ils l'ont rendu mature. Maintenant, ce ne sont pas les équipes qui chargent le maximum de texte dans le prompt qui gagnent, mais celles qui savent comment classer, filtrer, mettre en cache et réutiliser correctement le contexte. Pour les équipes produit, cela signifie des coûts de tokens plus faibles, une latence plus faible et des réponses plus prévisibles sur des corpus de documents longs. C'est exactement ce qui devient la nouvelle norme pour les assistants IA d'entreprise.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?

Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).

Réserver une consultation gratuite →