AWS publie Agent-EvalKit en open source : évaluation systématique des agents d’AI en six phases
AWS a publié Agent-EvalKit en open source, un framework Apache 2.0 pour l’évaluation systématique des agents d’AI. L’outil s’intègre à Claude Code, Kiro CLI…
Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
AWS a lancé Agent-EvalKit — un outil open source (Apache 2.0) pour l'évaluation systématique des agents d'IA. Le framework s'intègre avec Claude Code, Kiro CLI et Kilo Code et fait passer un agent à travers six phases séquentielles de vérification.
Pourquoi l'Évaluation des Agents Importe
Développer un agent d'IA est simple. Comprendre comment il fonctionne bien en est une autre histoire. Un agent peut retourner des réponses plausibles tout en appelant des outils inutiles, en dépensant des ordres de magnitude plus de tokens que nécessaire, ou en sautant des étapes critiques dans sa chaîne de raisonnement. Les métriques standard comme la précision ne fonctionnent pas ici : un agent est un système dynamique où non seulement le point final compte, mais tout le chemin vers celui-ci. Les journaux d'outils, l'ordre des appels, les décisions intermédiaires — tout cela affecte la fiabilité de l'agent en production. C'est pourquoi l'équipe AWS a créé une infrastructure d'évaluation spécialisée.
Six Phases de Vérification
Le framework exécute séquentiellement un agent à travers six étapes :
- Préparation de la tâche — formation d'un ensemble de cas de test avec données d'entrée, contexte et réponses de référence
- Exécution de l'agent — exécution des tâches dans un environnement contrôlé avec enregistrement complet du suivi
- Évaluation de la trajectoire — vérification si l'agent a appelé les outils requis dans le bon ordre
- Évaluation de la réponse finale — comparaison du résultat avec la référence par contenu, structure et précision
- Analyse de sécurité — vérification du comportement indésirable et des violations de périmètre
- Génération de rapport — agrégation des métriques et formation d'une note finale avec ventilation par catégories
Chaque phase peut être configurée séparément : exécuter uniquement l'évaluation de trajectoire, uniquement le rapport final, ou le cycle complet.
Exemple : Agent de Planification de Voyage
À titre de démonstration, AWS montre un agent écrit à l'aide de Strands Agents SDK et exécuté sur Amazon Bedrock. L'agent reçoit une demande de l'utilisateur — par exemple, « Planifiez un voyage de sept jours à Tokyo avec un budget de $2000 » — recherche des vols et des hôtels via des outils externes, analyse les attractions et retourne un itinéraire final. Agent-EvalKit vérifie un tel agent à travers les six phases : vérifie que l'outil de recherche de vols a été appelé avant la recherche d'hôtels, que la réponse finale contient des dates et des prix spécifiques, que l'agent s'est maintenu dans le budget et n'a pas inventé de vols inexistants.
Une telle vérification révèle des erreurs invisibles dans les tests manuels ordinaires.
Intégration avec les Assistants d'IA
La différence principale d'Agent-EvalKit par rapport aux analogues est l'intégration profonde avec les assistants de codification d'IA. Claude Code, Kiro CLI et Kilo Code peuvent exécuter l'évaluation directement dans l'environnement de travail du développeur, sans basculer vers une plateforme séparée ou configurer un pipeline séparé. Le framework est distribué sous la licence Apache 2.0. Le code source est ouvert sur GitHub ; la documentation décrit des exemples prêts à l'emploi pour plusieurs frameworks d'IA populaires.
«
Nous voulions créer une infrastructure d'évaluation que les développeurs pourraient intégrer en quelques minutes, sans la construire à partir de zéro », écrivent les auteurs dans le blog AWS Machine Learning.
Ce Que Cela Signifie
L'apparition d'un outil d'évaluation standardisé est une étape importante vers l'utilisation industrielle des agents d'IA. Sans la capacité de mesurer systématiquement les performances de l'agent sur des tâches réelles, il est difficile de justifier son application dans des processus métier critiques. Agent-EvalKit offre une méthodologie concrète au lieu de tests manuels.
Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?
Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.