Pourquoi les chatbots RAG fonctionnent parfaitement en démo mais produisent du charabia en production
Les chatbots RAG fonctionnent souvent parfaitement en démo mais échouent en production. Après quatre mois de développement avec Pinecone, parsing PDF et OpenAI

Un chatbot RAG pour la documentation interne a l'air parfait en démo—répondant à cinq questions présélectionnées avec confiance et précision. Mais dès que le système arrive en production et que les vrais employés commencent à poser des questions imprévisibles, le bot commence à produire des hallucinations confiantes. Voici l'histoire qui se répète dans les entreprises qui investissent dans les LLMs : quatre mois de développement, Pinecone, analyse PDF, intégration OpenAI, et au final, un système qui semble ne pas fonctionner.
Démo versus Réalité
Le chatbot répond parfaitement à cinq questions pré-préparées : sur la politique de congés, le processus d'achat, la structure de l'entreprise. Ce sont des questions réelles, mais des questions que vous connaissez déjà. La démonstration à la direction se déroule brillamment. Tout le monde voit la magie d'un LLM travaillant avec des documents internes. Le contrat est signé, le budget est alloué. Puis dans le système en direct, un employé pose une question légèrement en dehors du schéma standard. Pas exactement une question simple. Et le bot répond avec une confiance nonsensique—hallucine des informations qui n'existent pas dans les documents, ou invente des faits comme s'ils avaient toujours été là. L'utilisateur perd confiance après la première erreur.
Où l'Analyse Commence à Se Casser
Deux semaines ont été consacrées à l'analyse PDF. Cela semblait simple, mais le PDF est un format infernal. Certains documents se convertissent en un enchevêtrement de caractères, d'autres perdent la structure du tableau, d'autres encore brouillent l'ordre des paragraphes.
Vous écrivez un analyseur pour un type de document, vous le testez—tout fonctionne. Ensuite, un nouveau document avec un format différent est téléchargé dans le système, et l'analyseur commence à produire des ordures. Même si les fichiers source sont dans un seul format, tout ensemble réel de documents contient du bruit : des lettres numérisées au lieu de versions numériques, des logos au lieu de texte, des tailles de police différentes.
Un jour l'analyse fonctionne, le lendemain un nouveau document casse tout.
Le Problème de l'Hallucination et du Contexte Incomplet
Même si l'analyse fonctionne parfaitement, le système RAG peut récupérer des documents de la base de données vectorielle de manière incorrecte. Le modèle voit des morceaux de texte pertinents, mais il n'y a pas assez de contexte pour une réponse complète, ou les morceaux se contredisent. Alors le LLM, par nature, 'comble les lacunes'—hallucine des informations qui n'existent pas dans les documents. En démo, vous testez sur des cas optimaux où il y a suffisamment de contexte. En production, les utilisateurs demandent des détails disséminés dans différentes parties des documents ou formulés de manière entièrement différente. La base de données vectorielle ne trouve pas les morceaux pertinents, ou les trouve incomplètement. En conséquence :
- L'analyse échappe à tout contrôle avec de nouveaux formats de document
- La pertinence du contexte ne garantit pas que le modèle donne la bonne réponse
- Le modèle hallucine des informations au lieu de dire honnêtement 'je ne sais pas'
- Différentes formulations dans les documents ne sont pas trouvées par une seule requête
- Le classement de la pertinence ne correspond souvent pas au résultat souhaité
Entre Démo et Production
En démo, vous contrôlez les données d'entrée—vous sélectionnez les questions que le système traite bien. En production, le contraire se produit : les employés poseront exactement ces questions auxquelles le système ne peut pas répondre. Ils poseront des questions sur les exceptions, les cas limites, les détails qui existent techniquement dans le document mais ne sont pas au centre de l'attention de l'analyseur.
« Fonctionne à 90 pour cent en démo.
Fonctionne à 30 pour cent en production », — c'est ainsi que les développeurs décrivent la situation après la première semaine d'utilisation en direct.
Ce Que Cela Signifie
Cela ne signifie pas que RAG en entreprise est impossible. Cela signifie que RAG n'est pas une tâche unique de développement et pas une architecture unique que vous pouvez copier depuis GitHub. C'est un processus long avec gestion des exceptions, stratégies de secours, boucles de rétroaction des utilisateurs et réapprentissage continu sur de vraies questions. RAG fonctionne non pas parce que vous avez choisi le bon magasin de vecteurs, mais parce que vous avez accepté que c'est un long chemin.