AWS apresenta o ActorSimulator para testar agentes de AI multiturno no Strands Evals
A AWS apresentou o ActorSimulator no Strands Evals — uma ferramenta para testar agentes de AI não em solicitações isoladas, mas em diálogos multiturno reais…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
A AWS apresentou ActorSimulator — um componente do Strands Evaluations SDK que ajuda a testar agentes de AI em conversas com múltiplos turnos com usuários simulados de forma realista. Em vez de pares estáticos "pergunta-resposta", os times obtêm diálogos gerenciados com personas, objetivos e ramificações naturais conforme a conversa se desenrola.
Por que é difícil
Testar um agente em um único turno é relativamente simples: há uma entrada, há uma resposta, há um conjunto de métricas como helpfulness ou uso correto de ferramentas. Mas em um produto real, uma conversa quase nunca termina com uma mensagem. O usuário esclarece seu pedido, muda de direção, traz o diálogo de volta à tarefa original ou fica frustrado se o agente perdeu um detalhe importante.
Por isso, o próximo turno não pode ser pré-gravado em um dataset de teste — ele depende de tudo o que foi dito antes. O teste manual resolve este problema apenas parcialmente. Um time pode realmente executar cenários manualmente, mas centenas de conversas com múltiplos turnos após cada atualização do agente rapidamente se tornam inviáveis.
A tentativa de substituir isso por um prompt simples como "faz de conta que você é o usuário" também produz resultados fracos: o comportamento varia de execução para execução, a persona se desintegra e comparar pontuações entre versões fica difícil. A AWS propõe uma abordagem mais estruturada onde o realismo não mata a repetibilidade.
Como o simulador funciona
O ActorSimulator constrói um usuário simulado em torno de um caso de teste. Ele recebe uma solicitação inicial e, opcionalmente, uma descrição da tarefa — por exemplo, reservar uma viagem dentro de um orçamento. Depois o LLM constrói um perfil de personagem: estilo de comunicação, nível de expertise, paciência, contexto e objetivo final. Depois disso, o simulador conduz o diálogo turno por turno, mantém o histórico da conversa em memória e gera a próxima resposta não a partir de um template, mas na lógica daquele usuário específico. A AWS destaca vários mecanismos práticos aqui:
- Auto-geração de um perfil de usuário estável para um cenário específico
- Rastreamento do objetivo da conversa e verificação se foi alcançado
- Um sinal de parada se a tarefa foi resolvida, o agente ficou travado ou o limite de turnos foi esgotado
- Explicação estruturada do por que o simulador fez aquela pergunta específica
- A capacidade de inserir perfis customizados para verificar segmentos específicos de usuários
Isso importa não só pela elegância do cenário. Se um agente respondeu apenas parte de uma solicitação, o simulador continuará ao longo da linha faltante em vez de sair para off-topic aleatório. Se o agente pede esclarecimento, a resposta virá dentro da persona escolhida. Além disso, cada turno é acompanhado por reasoning estruturado: você pode ver se o usuário agora está esclarecendo uma lacuna, expressando confusão ou tentando retornar a conversa ao objetivo. Para depuração, esse nível de transparência é especialmente útil.
Integração no pipeline
A AWS mostra que você pode começar com apenas algumas linhas de código através do pacote `strands-agents-evals`. No exemplo, um assistente de viagem é testado: um Case é definido com uma solicitação do usuário, depois o ActorSimulator cria um diálogo com múltiplos turnos até que o objetivo seja alcançado, fique claro que o agente não consegue lidar ou atinja `max_turns`. O transcript resultante já pode ser analisado como uma sessão completa com múltiplos turnos para avaliação em vez de como um conjunto de respostas isoladas.
Para avaliação em produção, isso se conecta ao OpenTelemetry e mapeamento de sessões do Strands Evals. A AWS sugere coletar spans em cada turno, incluindo chamadas de ferramentas, invocações de modelos e timings, e então passar toda a trajetória para evaluators como HelpfulnessEvaluator e GoalSuccessRateEvaluator. Além disso, você pode definir perfis customizados manualmente — por exemplo, um expert impaciente ou um novato — e ver onde o agente consistentemente se perde.
Em suas recomendações, a AWS sugere começar com 3–5 turnos para tarefas simples e 8–10 para cenários mais longos.
O que significa
O mercado de agentes de AI está se afastando rapidamente de demos com um único sucesso para validação sistemática de trajetórias reais de usuários. O ActorSimulator da AWS é importante justamente porque transforma diálogos com múltiplos turnos de dor manual em parte de um pipeline de avaliação regular: com personas claras, objetivos mensuráveis e rastreamento pelo qual você pode procurar regressões antes de lançar em produção.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.