Habr AI→ original

OpenAI et Grok Cèdent à un RAG Personnalisé dans le Défi Juridique Agentic RAG

Dans le Défi Juridique Agentic RAG, une équipe a comparé les solutions prêtes d'OpenAI et Grok, CAG, BM25 et son propre pipeline hybride. Résultat : même les…

Traité par IA depuis Habr AI ; édité par Hamidun News
OpenAI et Grok Cèdent à un RAG Personnalisé dans le Défi Juridique Agentic RAG
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Les auteurs de l'article ont analysé comment leur équipe a participé au défi Agentic RAG Legal Challenge, une compétition internationale axée sur la réponse à des questions basées sur des PDF juridiques. La conclusion principale s'est avérée désagréablement pratique : la victoire n'est pas déterminée par le nom bruyant d'un modèle, mais par la capacité à ancrer précisément les réponses à la page correcte du document.

Comment les Systèmes ont été Évalués

Dans le défi, plus de 300 équipes ont participé, et le corpus consistait en vraies décisions de justice, lois et actes réglementaires de la DIFC en anglais. Les participants ont d'abord reçu 30 documents et 100 questions pour l'échauffement, puis près de 300 documents et 900 questions pour la phase finale. Les questions elles-mêmes étaient de différents types : dates, chiffres, noms, listes, oui ou non, et réponses courtes en texte libre. Mais plus important que la précision de la formulation était la métrique de Grounding — si les pages indiquées correspondaient à l'endroit où la réponse a été réellement prise.

"Même une réponse parfaite devient zéro si vous aviez indiqué la mauvaise page."

Sur cette base, l'équipe a construit son propre pipeline : les PDFs ont été convertis en Markdown, divisés en chunks sémantiques, le contexte a été ajouté pour chaque chunk, les embeddings denses et épars ont été calculés, et tout a été stocké dans Qdrant. Une partie du travail a été effectuée localement sur un Mac Studio M3 Ultra. La machine a rapidement géré l'analyse de 30 PDFs et les embeddings locaux, mais générer le contexte pour les chunks s'est avéré trop lent : en raison d'un long prefill, chaque chunk a pris 15-20 secondes, cette étape a donc dû être transférée à une API externe.

Qui a Échoué en Premier

Les auteurs ont d'abord testé l'approche la plus paresseuse : simplement télécharger les documents dans la base de connaissances intégrée d'OpenAI. La solution semblait décente sur le papier, mais en métriques elle a donné un Total de 0.362 : les réponses étaient souvent bonnes, mais la citation de page a tout cassé.

Ils ont ensuite testé CAG, où presque tout le corpus est envoyé au modèle à la fois, sans recherche par chunks. Une expérience avec Qwen 3.5 Flash et un contexte jusqu'à 1 million de tokens a montré que CAG n'est pas inutile : la précision était élevée, mais Grounding a déçu à nouveau.

BM25 simple a eu encore pire et s'est avéré être la tentative la plus faible.

  • les bases de connaissances intégrées des grands acteurs ne garantissent pas une bonne citation ;
  • CAG peut répondre avec précision, mais sans ancrage soigneux aux pages perd sur le score final ;
  • BM25 classique seul ne peut plus gérer les questions juridiques complexes ;
  • RAG hybride avec reranking approprié s'est avéré plus fort que les solutions intégrées d'OpenAI et Grok.

Leur propre système MORAG n'a pas impressionné au départ : un petit Qwen local a eu du mal à maintenir la précision et s'est particulièrement effondré sur les questions multi-documents. La percée est venue après le passage à Grok via OpenRouter et une sélection de chunks plus stricte. En échauffement, l'équipe est passée d'un Total de 0.362 dans les premières exécutions à 0.780 dans la tentative finale, et Grounding a augmenté d'environ 0.45 à 0.90. Cette croissance, et non le remplacement d'un modèle à la mode par un autre, est devenue le facteur principal du progrès.

Ce Qui a Vraiment Aidé

Les gains les plus importants ne sont pas venus des "améliorations abstraites de qualité", mais de plusieurs solutions d'ingénierie très concrètes. L'équipe a divisé les modes reasoning et non-reasoning par types de questions, a ajouté une boucle agentic avec recherche répétée si les données étaient insuffisantes, et a construit séparément un gold set pour vérifier les réponses sur 900 questions. Cela leur a permis d'éviter de tirer à l'aveugle en finale et de trouver rapidement les erreurs systémiques comme la mauvaise interprétation du langage concernant un appel soumis mais rejeté.

  • les modèles de reasoning ont été conservés pour boolean, name et names, où non-reasoning perdait 8–16% de précision ;
  • pour date, number et free_text, ils ont utilisé un mode non-reasoning plus rapide sans perte notable ;
  • ils ont ajouté les 1–3 premières pages des documents mentionnés dans la question à la recherche, car les détails clés du dossier s'y trouvent souvent ;
  • ils ont reconstruit les summaries et les vecteurs épars pour le domaine juridique ;
  • ils ont limité les chunks à la limite de l'embedder FRIDA, qui coupe tout ce qui dépasse 512 tokens.

En phase finale, MORAG est resté en deçà du golden submission préparé sur le Total global—0.603 contre 0.631, mais a surpassé sur trois des cinq métriques : sur la précision des réponses déterministes, sur la qualité des réponses en texte libre et sur la vitesse. La perte est venue à nouveau de Grounding. C'est une nuance importante : le système RAG lui-même répondait déjà mieux que la baseline "manuelle", mais l'ancrage technique de la réponse à la page correcte était encore à la traîne.

Ce Que Cela Signifie

Cette histoire montre bien que CAG n'a pas tué RAG, Mac Studio convient pour certaines parties d'un pipeline local, et les bases toutes faites d'OpenAI et Grok ne remplacent pas l'ajustement à un corpus spécifique. Si les données sont complexes, la victoire ne va pas à la marque la plus bruyante, mais à l'équipe qui sait comment mesurer les erreurs, contrôler le chunking, et mettre Grounding en état de fonctionnement.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…