AWS Machine Learning Blog→ original

AWS présente ActorSimulator pour tester des agents AI multi-tours dans Strands Evals

AWS a présenté ActorSimulator dans Strands Evals — un outil pour tester des agents AI non pas sur des requêtes isolées, mais dans des dialogues multi-tours…

Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
AWS présente ActorSimulator pour tester des agents AI multi-tours dans Strands Evals
Source : AWS Machine Learning Blog. Collage: Hamidun News.
◐ Écouter l'article

AWS a présenté ActorSimulator — un composant du Strands Evaluations SDK qui aide à tester les agents IA dans des conversations multi-tours avec des utilisateurs simulés de manière réaliste. Au lieu de paires statiques « question-réponse », les équipes obtiennent des dialogues gérés avec des personas, des objectifs et des ramifications naturelles au fil de la conversation.

Pourquoi c'est difficile

Tester un agent en un seul tour est relativement simple : il y a une entrée, il y a une réponse, il y a un ensemble de métriques comme helpfulness ou l'utilisation correcte des outils. Mais dans un vrai produit, une conversation ne se termine presque jamais par un message. L'utilisateur clarifie sa demande, change de direction, ramène le dialogue à la tâche originale ou se frustre si l'agent a manqué un détail important.

Pour cette raison, le tour suivant ne peut pas être pré-enregistré dans un dataset de test — cela dépend de tout ce qui a été dit avant. Les tests manuels résolvent ce problème que partiellement. Une équipe peut effectivement exécuter les scénarios manuellement, mais des centaines de conversations multi-tours après chaque mise à jour de l'agent deviennent rapidement ingérables.

La tentative de remplacer cela par un simple prompt comme « fais semblant d'être l'utilisateur » produit également des résultats faibles : le comportement varie d'une exécution à l'autre, la persona s'effondre et comparer les scores entre les versions devient difficile. AWS propose une approche plus structurée où le réalisme ne tue pas la répétabilité.

Comment fonctionne le simulateur

ActorSimulator construit un utilisateur simulé autour d'un cas de test. Il prend une demande initiale et, optionnellement, une description de la tâche — par exemple, réserver un voyage dans un budget. Ensuite, le LLM construit un profil de personnage : style de communication, niveau d'expertise, patience, contexte et objectif final. Après cela, le simulateur mène le dialogue tour par tour, garde l'historique de la conversation en mémoire et génère la réponse suivante non pas à partir d'un modèle, mais selon la logique de cet utilisateur spécifique. AWS met en évidence plusieurs mécanismes pratiques ici :

  • Auto-génération d'un profil utilisateur stable pour un scénario spécifique
  • Suivi de l'objectif de la conversation et vérification de son atteinte
  • Un signal d'arrêt si la tâche est résolue, l'agent est coincé ou la limite de tours est atteinte
  • Explication structurée de la raison pour laquelle le simulateur a posé cette question particulière
  • La capacité d'insérer des profils personnalisés pour vérifier des segments d'utilisateurs spécifiques

Cela importe non seulement pour l'élégance du scénario. Si un agent a répondu à seulement une partie d'une demande, le simulateur continuera le long de la ligne manquante plutôt que de partir en hors-sujet aléatoire. Si l'agent demande une clarification, la réponse viendra dans le cadre de la persona choisie. De plus, chaque tour s'accompagne d'un reasoning structuré : vous pouvez voir si l'utilisateur clarifie maintenant une lacune, exprime de la confusion ou essaie de ramener la conversation à l'objectif. Pour le débogage, ce niveau de transparence est particulièrement utile.

Intégration dans le pipeline

AWS montre que vous pouvez commencer avec seulement quelques lignes de code via le package `strands-agents-evals`. Dans l'exemple, un assistant de voyage est testé : un Case est défini avec une demande d'utilisateur, puis ActorSimulator crée un dialogue multi-tours jusqu'à ce que l'objectif soit atteint, qu'il devienne clair que l'agent ne peut pas le gérer, ou qu'il atteigne `max_turns`. La transcription résultante peut déjà être analysée comme une session complète multi-tours pour l'évaluation plutôt que comme un ensemble de réponses isolées.

Pour l'évaluation en production, cela est connecté à OpenTelemetry et au mappage des sessions Strands Evals. AWS suggère de collecter des spans à chaque tour, y compris les appels d'outils, les invocations de modèles et les timings, puis de passer toute la trajectoire à des évaluateurs comme HelpfulnessEvaluator et GoalSuccessRateEvaluator. De plus, vous pouvez définir des profils personnalisés manuellement — par exemple, un expert impatient ou un novice — et voir où l'agent se perd systématiquement.

Dans ses recommandations, AWS suggère de commencer avec 3–5 tours pour les tâches simples et 8–10 pour les scénarios plus longs.

Ce que cela signifie

Le marché des agents IA s'éloigne rapidement des démos avec une seule réponse réussie vers la validation systématique des trajectoires réelles des utilisateurs. ActorSimulator d'AWS est important précisément parce qu'il transforme les dialogues multi-tours de douleur manuelle en partie d'un pipeline d'évaluation régulier : avec des personas claires, des objectifs mesurables et des traces par lesquelles vous pouvez rechercher des régressions avant de déployer en production.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…