AWS Machine Learning Blog→ original

AWS presenta ActorSimulator para probar agentes de AI multiturno en Strands Evals

AWS presentó ActorSimulator en Strands Evals, una herramienta para probar agentes de AI no con solicitudes aisladas, sino en diálogos multiturno reales. El…

Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
AWS presenta ActorSimulator para probar agentes de AI multiturno en Strands Evals
Fuente: AWS Machine Learning Blog. Collage: Hamidun News.
◐ Escuchar artículo

AWS mostró ActorSimulator — un componente del Strands Evaluations SDK que ayuda a probar agentes de AI en conversaciones de múltiples turnos con usuarios simulados de forma realista. En lugar de pares estáticos "pregunta-respuesta", los equipos obtienen diálogos gestionados con personas, objetivos y ramificaciones naturales conforme avanza la conversación.

Por qué es difícil

Probar un agente en un único turno es relativamente simple: hay una entrada, hay una respuesta, hay un conjunto de métricas como helpfulness o uso correcto de herramientas. Pero en un producto real, una conversación casi nunca termina con un mensaje. El usuario aclara su solicitud, cambia de dirección, trae el diálogo de vuelta a la tarea original o se frustra si el agente pasó por alto un detalle importante.

Por esto, el siguiente turno no puede ser pre-grabado en un dataset de prueba — depende de todo lo que se dijo antes. Las pruebas manuales solo resuelven este problema parcialmente. Un equipo puede realmente ejecutar escenarios manualmente, pero cientos de conversaciones de múltiples turnos después de cada actualización del agente rápidamente se vuelven inmanejables.

El intento de reemplazar esto con un simple prompt como "haz de cuenta que eres el usuario" también da resultados débiles: el comportamiento varía de ejecución a ejecución, la persona se desmorona y comparar puntuaciones entre versiones se vuelve difícil. AWS propone un enfoque más estructurado donde el realismo no mata la repetibilidad.

Cómo funciona el simulador

ActorSimulator construye un usuario simulado alrededor de un caso de prueba. Recibe una solicitud inicial y, opcionalmente, una descripción de la tarea — por ejemplo, reservar un viaje dentro de un presupuesto. Luego el LLM construye un perfil de personaje: estilo de comunicación, nivel de experiencia, paciencia, contexto y objetivo final. Después de eso, el simulador conduce el diálogo turno a turno, mantiene el historial de la conversación en memoria y genera la siguiente respuesta no a partir de una plantilla, sino en la lógica de ese usuario específico. AWS destaca varios mecanismos prácticos aquí:

  • Auto-generación de un perfil de usuario estable para un escenario específico
  • Seguimiento del objetivo de la conversación y verificación de si ha sido alcanzado
  • Una señal de parada si la tarea se resolvió, el agente está atascado o se agotó el límite de turnos
  • Explicación estructurada de por qué el simulador hizo esa pregunta específica
  • La capacidad de insertar perfiles personalizados para verificar segmentos específicos de usuarios

Esto importa no solo por la elegancia del escenario. Si un agente respondió solo parte de una solicitud, el simulador continuará a lo largo de la línea faltante en lugar de salirse a algo aleatorio fuera de tema. Si el agente pide aclaración, la respuesta vendrá dentro de la persona elegida. Además, cada turno va acompañado de reasoning estructurado: puedes ver si el usuario ahora está aclarando una brecha, expresando confusión o intentando llevar la conversación de vuelta al objetivo. Para depuración, este nivel de transparencia es especialmente útil.

Integración en el pipeline

AWS muestra que puedes comenzar con solo unas pocas líneas de código a través del paquete `strands-agents-evals`. En el ejemplo, se prueba un asistente de viaje: un Case se define con una solicitud del usuario, luego ActorSimulator crea un diálogo de múltiples turnos hasta que se alcanza el objetivo, queda claro que el agente no puede manejarlo, o golpea `max_turns`. El transcript resultante ya se puede analizar como una sesión completa de múltiples turnos para evaluación en lugar de como un conjunto de respuestas aisladas.

Para evaluación en producción, esto se conecta a OpenTelemetry y mapeamento de sesiones de Strands Evals. AWS sugiere recopilar spans en cada turno, incluyendo llamadas de herramientas, invocaciones de modelos y timings, y luego pasar toda la trayectoria a evaluadores como HelpfulnessEvaluator y GoalSuccessRateEvaluator. Además, puedes establecer perfiles personalizados manualmente — por ejemplo, un experto impaciente o un novato — y ver dónde el agente consistentemente se pierde.

En sus recomendaciones, AWS sugiere comenzar con 3–5 turnos para tareas simples y 8–10 para escenarios más largos.

Qué significa

El mercado de agentes de AI se está alejando rápidamente de demos con una sola respuesta exitosa hacia la validación sistemática de trayectorias reales de usuarios. ActorSimulator de AWS es importante precisamente porque convierte diálogos de múltiples turnos de dolor manual en parte de un pipeline de evaluación regular: con personas claras, objetivos medibles y rastreo por el cual puedes buscar regresiones antes de enviar a producción.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…