Habr AI→ original

RAGAS et les métriques RAG : comment arrêter de deviner et commencer à mesurer la qualité

Les systèmes RAG ajoutent souvent des hallucinations ou perdent du contexte pertinent. RAGAS propose quatre métriques automatiques : Faithfulness (fidélité au c

RAGAS et les métriques RAG : comment arrêter de deviner et commencer à mesurer la qualité
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Les systèmes RAG gagnent en popularité, mais produisent souvent des réponses incorrectes, ajoutent des faits fabriqués ou ignorent le contexte pertinent. Dans la troisième partie de notre cycle sur l'ingénierie de la qualité, nous explorerons comment mesurer RAG au lieu de deviner, et comment utiliser RAGAS — un framework qui remplace la vérification manuelle par l'automatisation.

Pourquoi les métriques RAG sont plus difficiles que les métriques LLM

Un LLM standard peut être évalué sur des ensembles de référence : MMLU, HumanEval, TruthfulQA. RAG ajoute une couche de récupération — de nouveaux modes de défaillance émergent. Une question comme "Quel était le salaire de Gates en 1997 ?" peut échouer de plusieurs façons :

  • Le moteur de recherche n'a pas trouvé un document pertinent — la recherche a retourné du bruit
  • Le modèle a trouvé le document mais a ignoré le fait pertinent — inattention
  • Le modèle a trouvé le fait mais a ajouté une hallucination par-dessus — mélange de source et de fabrication
  • Le contexte était pertinent, mais la réponse ne correspond pas à la question — erreur logique

Pour gérer ces scénarios, des métriques spécialisées sont nécessaires. La vérification manuelle de chaque réponse est coûteuse et n'évolue pas pour des milliers de requêtes.

RAGAS : quatre métriques pour tous les cas

RAGAS — un framework de Basis AI pour l'évaluation automatique de RAG. Voici ses métriques principales :

  • Faithfulness — la réponse générée est-elle fidèle au contexte ? Le modèle vérifie si le LLM a ajouté des faits non présents dans les sources. Le score varie de 0 à 1.
  • Answer Relevance — la réponse correspond-elle à la question ? RAGAS génère une question inverse à partir de la réponse et compare sémantiquement.
  • Context Precision — les fragments récupérés sont-ils pertinents ? Il vérifie si le moteur de recherche a mélangé la direction ou retourné du bruit.
  • Context Recall — complétude du contexte ? Toutes les informations nécessaires étaient-elles dans les documents pour une réponse complète à la question.

Chaque métrique indique un goulot d'étranglement : mauvaise récupération, mauvaise génération, ou les deux.

Comment RAGAS évalue en interne

Il n'y a pas de magie ici — RAGAS utilise le LLM lui-même comme arbitre. Pour Faithfulness, il prend la réponse générée et le contexte, demande au modèle d'identifier les affirmations qui peuvent être vérifiées (factual claims), puis vérifie chacune par rapport au contexte une par une. Si une affirmation est soutenue par un fait dans la source — le score augmente.

Pour Answer Relevance, il génère une question hypothétique à partir de la réponse (inverse), puis calcule la similarité cosinus (distance sémantique) à la question originale. Plus la correspondance est élevée, plus la réponse est pertinente.

"Si votre LLM sait comment mentir, il sait comment détecter les

mensonges", — la logique du framework.

L'ensemble du processus nécessite des appels LLM (pour chaque réponse — au minimum 2-3 appels), donc RAGAS est considéré comme coûteux en tokens. Mais l'alternative — embaucher des personnes pour l'étiquetage — est encore plus coûteuse et plus lente.

Qu'est-ce que cela signifie

RAGAS rend l'ingénierie RAG reproductible et traçable. Au lieu du qualitatif "semble fonctionner", vous obtenez des métriques quantitatives qui suivent comment chaque mise à jour (nouveaux documents, nouveau modèle, nouveau prompt) affecte la qualité.

Pour de petits projets personnels, RAGAS peut être excessif. Pour les solutions d'entreprise, où les erreurs coûtent de l'argent et la confiance des clients, c'est le tableau périodique que les ingénieurs RAG attendaient depuis longtemps.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…