Habr AI→ original

Comment Bitrix24 a construit eval et automatisé l'optimisation de l'agent RAG Martha

Un développeur de Bitrix24 a expliqué comment il a construit un système eval complet pour l'assistant IA Martha : ensembles de données experts et…

Traité par IA depuis Habr AI ; édité par Hamidun News
Comment Bitrix24 a construit eval et automatisé l'optimisation de l'agent RAG Martha
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

L'équipe de Bitrix24 a publié la deuxième partie d'un détail technique du système RAG pour l'assistant IA Martha. La première portait sur le pipeline de retrieval et la recherche dans la base de connaissances. Maintenant — sur la façon de mesurer la qualité de l'ensemble de la chaîne dans son ensemble, pourquoi les métriques de retrieval isolées ne suffisent pas et comment automatiser le cycle d'expériences pour que chaque changement puisse être vérifié systématiquement.

Les Métriques de Retrieval Trompent

Les métriques classiques de recherche — precision, recall, MRR — montrent avec quelle précision le système trouve les bons documents. Mais elles ne répondent pas à la question principale : l'utilisateur a-t-il reçu une réponse utile ? Les développeurs de Bitrix24 ont rencontré le piège typique de la RAG en production : les métriques de retrieval augmentaient d'expérience en expérience, mais la qualité réelle des réponses de Martha s'améliorait de manière disproportionnée — et parfois ne s'améliorait pas du tout.

Retrieval et generation sont des maillons différents de la même chaîne. Améliorer la recherche ne garantit pas améliorer la réponse finale.

La solution est un système d'eval de bout en bout qui évalue la réponse finale visible par l'utilisateur, pas seulement le résultat intermédiaire de la recherche.

Deux Types d'Ensembles de Données

La base du système d'évaluation est deux ensembles de données aux caractéristiques fondamentalement différentes :

  • Ensemble de données expert — questions et réponses de référence écrites manuellement par des spécialistes qui connaissent bien le produit. Précis et fiable : si le système fait une erreur ici, le problème est évident. L'inconvénient — coûteux à créer, difficile à mettre à l'échelle.
  • Ensemble de données synthétique — paires question-réponse générées automatiquement à partir de la documentation du produit. Créé rapidement et en grand volume, mais nécessite un filtrage : la génération par LLM introduit inévitablement du bruit et des artefacts.

Les deux ensembles de données fonctionnent ensemble. L'ensemble de données expert couvre les scénarios critiquement importants, l'ensemble de données synthétique couvre la longue traîne des requêtes qui ne peuvent pas être atteintes manuellement. Cette combinaison offre une vision plus complète de la qualité que l'une ou l'autre approche seule.

Boucle d'Optimisation Fermée

Le résultat pratique clé de la deuxième partie est l'automatisation du cycle d'expériences. Auparavant, chaque changement dans le pipeline de retrieval nécessitait une vérification manuelle : exécuter eval, collecter les métriques, comparer avec la version précédente, prendre une décision. Lent, subjectif et ne s'adapte pas bien.

Le nouveau système ferme la boucle :

  • le changement entre dans le pipeline
  • eval s'exécute automatiquement sur les deux ensembles de données
  • les métriques sont comparées au baseline
  • les régressions sont corrigées immédiatement et ne vont pas en production
  • l'historique des expériences s'accumule de manière structurée

Essentiellement, c'est du CI/CD pour la qualité des réponses. Chaque expérience laisse une trace, l'équipe voit quelles solutions fonctionnent systématiquement, pas par hasard. C'est particulièrement important lorsque le pipeline RAG se compose de plusieurs composants interdépendants.

Quand les Métriques Divergent

L'une des observations clés de l'article : les métriques de retrieval et les métriques de qualité de réponse finale peuvent se déplacer dans des directions opposées — et c'est normal. Une recherche plus précise retourne parfois des documents qui sont techniquement pertinents mais n'aident pas le LLM à formuler une bonne réponse : trop longs, trop techniques ou se dupliquant les uns les autres.

Inversement, un retrieval moins agressif produit parfois un meilleur résultat parce que le contexte est plus compact et plus propre pour la génération.

«

La RAG en production est un travail constant avec le retrieval, le bruit et la latence. »

La vision finale de la qualité est toujours plusieurs métriques travaillant ensemble. Se concentrer sur une seule signifie optimiser la mauvaise chose.

Ce Que Cela Signifie

L'expérience de Bitrix24 montre à quoi ressemble une approche mûre de la RAG en production : pas « lancer et espérer », mais un travail systématique avec des ensembles de données, des métriques de bout en bout et des cycles d'eval automatisés. Ce processus transforme l'optimisation d'une série de suppositions intuitives en une discipline d'ingénierie gérée — avec des expériences reproductibles et un historique clair des décisions.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…