Habr AI→ original

MWS AI et SberAI proposent DRAGOn — un benchmark dynamique pour évaluer les systèmes RAG

MWS AI, SberAI et des partenaires académiques ont présenté DRAGOn — un benchmark pour les systèmes RAG avec un corpus régulièrement mis à jour. Au lieu d'un…

Traité par IA depuis Habr AI ; édité par Hamidun News
MWS AI et SberAI proposent DRAGOn — un benchmark dynamique pour évaluer les systèmes RAG
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Des chercheurs de MWS AI, SberAI et plusieurs universités ont présenté DRAGOn — un benchmark dynamique pour évaluer les systèmes RAG fonctionnant sur un corpus régulièrement mis à jour. Le travail a été publié sur arXiv en juillet 2025 et en mars 2026, il a été inclus dans les matériaux de l'EACL 2026 comme un moyen pratique de tester RAG sur des données véritablement nouvelles, plutôt que sur un ensemble de questions fixé il y a longtemps.

Pourquoi c'est difficile

L'évaluation de RAG se heurte presque toujours au même problème : les tests deviennent obsolètes plus vite que les systèmes eux-mêmes. Si un benchmark est construit sur un corpus fixe, un modèle peut afficher de hauts résultats non pas parce qu'il recherche et lie bien les documents, mais parce qu'il a déjà vu partie des faits lors de l'entraînement. À cela s'ajoute une autre complication : dans la qualité finale, il est difficile de séparer la contribution du récupérateur de celle du générateur. Et la préparation manuelle de paires « question-réponse » pour la vérification continue est trop chère, lente et peu évolutive pour les équipes qui souhaitent comparer régulièrement de nouvelles versions de leurs pipelines.

Comment est structuré DRAGOn

Les auteurs proposent de construire le benchmark comme un pipeline. Les analyseurs extraient régulièrement des matériaux provenant de sources d'actualités, puis un module séparé extrait des faits atomiques des textes sous forme de triplets « sujet-relation-objet ». Ensuite, le système vérifie les entités par rapport à Wikidata et rejette les faits déjà connus, afin que l'échantillon contienne précisément de nouvelles connaissances. À partir du graphe résultant, des questions de complexité variable sont construites automatiquement, et le benchmark lui-même peut être régulièrement publié sans réassemblage manuel et avec un contrôle de version clair.

  • Simple — une question sur un seul fait
  • Set — une énumération de plusieurs objets avec une relation commune
  • Multi-hop — une question passant par une entité intermédiaire
  • Conditional — une réponse basée sur deux conditions simultanément

En plus de cela, les auteurs ont ajouté un classement public et une division en parties d'évaluation publiques et privées. La partie publique est nécessaire pour la comparaison ouverte des résultats, et la partie privée est pour la vérification précise par rapport à l'étalon-or et la protection contre l'ajustement aux réponses connues. Un tel format rend la comparaison de différentes configurations de RAG plus équitable : une équipe peut tester un nouveau récupérateur, une autre un nouveau générateur, et les deux obtiennent des résultats comparables sur un corpus frais, plutôt que sur un ensemble que le modèle aurait pu déjà apprendre.

Comment fonctionne la vérification

Pour empêcher que les paires QA générées automatiquement ne se transforment en bruit, DRAGOn les exécute à travers plusieurs filtres. D'abord, la correction linguistique de base est vérifiée à l'aide de RuRoBERTa-large, puis les questions passent par une vérification NER via Natasha. Après cela, les exemples trop faciles sont supprimés de l'ensemble : si de petits modèles comme Qwen 2.

5 7B ou LLaMa 3 8B répondent sans dépendre du contexte, une telle question n'est pas appropriée pour une évaluation juste de RAG et est exclue de la version finale. Le contrôle final de la qualité est effectué par POLLUX 7B en mode LLM-as-a-Judge. Le modèle évalue la grammaticalité, la naturalité, la correction et la dépendance de la question au contexte, puis ces scores sont vérifiés par rapport à l'annotation humaine.

Dans une expérience avec 532 exemples, le juge automatique a montré une haute précision, bien qu'il se soit avéré être assez strict. Après filtrage, les auteurs conservent 150 questions de qualité pour chaque catégorie, puis testent les systèmes séparément pour la récupération et la génération. Dans les tests, les combinaisons avec Qwen 3 Embedding 8B et E5 Mistral 7B Instruct semblaient les plus fortes : la conclusion est simple — si le récupérateur trouve le contexte correct, il est considérablement plus facile pour le générateur de donner une réponse précise.

Ce que cela signifie

DRAGOn est une tentative de transformer l'évaluation de RAG d'une démonstration unique en un processus continuellement mis à jour. Pour les équipes qui construisent une recherche sur des documents, des actualités ou des bases de connaissances internes, une telle approche est utile car elle réduit le risque de fausse confiance : un système peut donner de belles réponses sur des données familières, mais échouer sur des faits véritablement nouveaux. Un benchmark dynamique aide à détecter cette différence plus tôt et donne une image plus honnête de la capacité de RAG à fonctionner dans un environnement actif.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…