AWS lança o Agent-EvalKit em código aberto: avaliação sistemática de agentes de AI em seis fases
A AWS lançou o Agent-EvalKit em código aberto, um framework Apache 2.0 para avaliação sistemática de agentes de AI. A ferramenta se integra ao Claude Code…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
A AWS lançou Agent-EvalKit — uma ferramenta de código aberto (Apache 2.0) para avaliação sistemática de agentes de IA. O framework integra com Claude Code, Kiro CLI e Kilo Code e conduz um agente através de seis fases sequenciais de verificação.
Por que a Avaliação de Agentes Importa
Desenvolver um agente de IA é direto. Entender como ele funciona bem é outra história. Um agente pode retornar respostas plausíveis enquanto chama ferramentas desnecessárias, gasta ordens de magnitude mais tokens do que necessário, ou pula etapas críticas em sua cadeia de raciocínio. Métricas padrão como acurácia não funcionam aqui: um agente é um sistema dinâmico onde não apenas o ponto final importa, mas todo o caminho até ele. Logs de ferramentas, ordem de chamadas, decisões intermediárias — tudo isso afeta a confiabilidade do agente em produção. É por isso que o time AWS criou infraestrutura de avaliação especializada.
Seis Fases de Verificação
O framework executa sequencialmente um agente através de seis estágios:
- Preparação da tarefa — formação de um conjunto de casos de teste com dados de entrada, contexto e respostas de referência
- Execução do agente — execução de tarefas em um ambiente controlado com gravação completa de rastreamento
- Avaliação de trajetória — verificação se o agente chamou as ferramentas necessárias na ordem correta
- Avaliação da resposta final — comparação do resultado com a referência por conteúdo, estrutura e acurácia
- Análise de segurança — verificação de comportamento indesejado e violações de escopo
- Geração de relatório — agregação de métricas e formação de uma pontuação final com desagregação por categorias
Cada fase pode ser configurada separadamente: executar apenas avaliação de trajetória, apenas o relatório final, ou o ciclo completo.
Exemplo: Agente de Planejamento de Viagens
Como demonstração, a AWS mostra um agente escrito usando Strands Agents SDK e rodando no Amazon Bedrock. O agente recebe um pedido do usuário — por exemplo, "Planeje uma viagem de sete dias para Tóquio com orçamento de $2000" — busca voos e hotéis através de ferramentas externas, analisa atrações e retorna um itinerário final. Agent-EvalKit verifica tal agente em todas as seis fases: verifica se a ferramenta de busca de voos foi chamada antes da busca de hotéis, que a resposta final contém datas e preços específicos, que o agente permaneceu dentro do orçamento e não inventou voos inexistentes. Tal verificação revela erros invisíveis no teste manual regular.
Integração com Assistentes de IA
A diferença principal do Agent-EvalKit em relação aos análogos é integração profunda com assistentes de codificação de IA. Claude Code, Kiro CLI e Kilo Code podem executar avaliação diretamente dentro do ambiente de trabalho do desenvolvedor, sem trocar para uma plataforma separada ou configurar um pipeline separado. O framework é distribuído sob a licença Apache 2.0. O código-fonte é aberto no GitHub; a documentação descreve exemplos prontos para vários frameworks de IA populares.
"Queríamos criar infraestrutura de avaliação que os desenvolvedores pudessem conectar em poucos minutos, sem construí-la do zero," escrevem os autores no blog AWS
Machine Learning.
O que Isso Significa
O surgimento de uma ferramenta de avaliação padronizada é um passo importante em direção ao uso industrial de agentes de IA. Sem a capacidade de medir sistematicamente o desempenho do agente em tarefas reais, é difícil justificar sua aplicação em processos de negócios críticos. Agent-EvalKit oferece uma metodologia concreta em vez de testes manuais.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.