Habr AI→ original

Comment arrêter de deviner et commencer à mesurer la qualité des agents AI

L’équipe de Bitrix24 a expliqué comment, en six mois, elle est passée des tests manuels de son agent AI, Marta, à un système automatisé de benchmarks. Le…

Traité par IA depuis Habr AI ; édité par Hamidun News
Comment arrêter de deviner et commencer à mesurer la qualité des agents AI
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Chaque équipe qui a déployé un agent AI en production fait finalement face au même cauchemar. Un utilisateur écrit au support : « votre bot dit n'importe quoi ». Un développeur ouvre les logs, regarde le prompt, regarde la réponse — et ne peut pas déterminer ce qui s'est exactement passé. Est-ce une régression après le commit d'hier ? Un effet secondaire du changement de modèle ? Ou simplement un cas limite malheureux qui a toujours existé ? L'équipe Bitrix24 a traversé tous les stades de ce processus avec son agent AI Martha — et partage maintenant les leçons que tous ceux qui travaillent avec de grands modèles de langage en production devraient apprendre.

Martha est un assistant AI au sein de l'écosystème Bitrix24 qui interagit avec la CRM, gère les tâches et répond aux questions des utilisateurs. Aux premiers stades, tout semblait simple : ouvrir un chat, poser une question, regarder la réponse à l'œil nu. Test manuel classique, qui fonctionne tant que l'agent peut faire dix choses. Mais dès que les fonctionnalités de Martha ont augmenté, cette approche a commencé à s'effondrer. Un ingénieur ne peut physiquement pas exécuter deux cents scénarios après chaque révision de prompt. Et les révisions de prompts dans le développement moderne de produits AI ne sont pas l'exception — c'est la routine quotidienne.

Le problème décrit par l'équipe est de nature systémique. L'ingénierie de prompt est intrinsèquement instable par nature : le moindre changement dans la formulation d'une instruction peut affecter de manière imprévisible le comportement du modèle dans des dizaines de contextes différents. Ajoutez à cela les changements périodiques de version de modèle de la part des fournisseurs, les mises à jour des prompts système, l'expansion de l'ensemble d'outils disponibles pour l'agent — et vous obtenez une explosion combinatoire de points de défaillance potentiels. Sans contrôle automatisé de la qualité, l'équipe travaille effectivement à l'aveugle, réagissant aux problèmes après coup au lieu de les prévenir.

La solution à laquelle Bitrix24 est arrivée était de construire un système de benchmarking à part entière. L'essence de l'approche est de formaliser les attentes envers l'agent AI sous la forme d'un ensemble de scénarios de test avec des critères de succès mesurables. Ce ne sont pas des tests unitaires au sens classique : les réponses du modèle de langage sont non-déterministes, et les vérifier pour une correspondance exacte n'a aucun sens. À la place, on utilise des métriques qui évaluent la pertinence, l'exhaustivité, la correction de l'invocation d'outils et l'alignement avec le ton de communication. Essentiellement, l'équipe construit un analogue automatisé d'une évaluation par expert qui peut être exécuté après chaque modification.

Le chemin de l'idée à un système fonctionnant a pris environ six mois — et c'est un chiffre honnête qui en dit long sur la maturité de l'outillage dans ce domaine. Les solutions clé en main que vous pouvez acheter et connecter à un agent AI arbitraire n'existent pratiquement pas. Chaque équipe doit indépendamment déterminer quelles métriques reflètent la qualité de son produit spécifique, comment générer et maintenir à jour des ensembles de données de test, comment interpréter les résultats et intégrer les benchmarks dans le pipeline CI/CD. Bitrix24 souligne que son approche n'est pas liée à une pile spécifique — et c'est peut-être la partie la plus précieuse de leur expérience.

L'histoire de Martha reflète une tendance plus large de l'industrie. À mesure que les agents AI passent de la catégorie des expériences à celle des outils critiques pour l'entreprise, les exigences en matière de fiabilité croissent de façon exponentielle. Des entreprises comme Anthropic, OpenAI et Google investissent dans des systèmes d'évaluation des modèles au niveau des plates-formes, mais au niveau des produits spécifiques, la responsabilité de la qualité incombe toujours aux équipes de développement. Le problème est aggravé par le fait que les utilisateurs perdent rapidement confiance dans un assistant AI après quelques réponses échouées, et regagner cette confiance est nettement plus difficile que de la perdre.

Une attention particulière mérite le changement culturel qui sous-tend cette transition. Les tests manuels d'agents AI ne sont pas simplement une pratique inefficace — c'est une fausse impression de contrôle. Un ingénieur qui a testé vingt scénarios sur deux cents tend à penser que le système fonctionne correctement, alors qu'en réalité il n'a testé que dix pour cent de la surface. Les benchmarks automatisés n'éliminent pas complètement l'incertitude, mais la rendent visible et mesurable. Et ce qui peut être mesuré peut être amélioré.

L'expérience de Bitrix24 est un signal pour toute l'industrie du développement AI de langue russe. L'époque où un agent AI pouvait être déployé en production avec les paroles « cela semble fonctionner » arrive à sa fin. Devant nous se trouve une ère de métriques, de benchmarks et de contrôle continu de la qualité. Et les équipes qui maîtriseront ces pratiques en premier obtiendront un avantage décisif dans la lutte pour la confiance des utilisateurs.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…