Como medir o desempenho de um agente de AI em QA: a história de um benchmark
Mikhail Fedorov montou um benchmark objetivo para o QA Assist, um sistema de 11 agentes de AI que automatizam os testes. Em vez de avaliações subjetivas do dese
Processado por IA de Habr AI; editado por Hamidun News
Quando um agente AI trabalha em tarefas de teste, a pergunta principal se torna premente: ele é realmente melhor do que ontem? Essa pergunta não pode ser respondida simplesmente — você precisa de números. Mikhail Fedorov, desenvolvedor do QA Assist, enfrentou esse problema de frente. QA Assist é um sistema de 11 agentes AI que juntos cobrem todo o ciclo de testes: desde a decomposição de requisitos até testes automatizados prontos. Mas como avaliar se o sistema melhorou após a próxima atualização? A olho nu — não é confiável.
Por que Avaliações Visuais Não Funcionam
A avaliação subjetiva pode ser enganosa: o agente encontrou 5 bugs ontem, 7 hoje, mas você pode ter certeza de que o sistema realmente melhorou em vez de o conjunto de testes simplesmente ter mudado? Diferentes versões de modelo, diferentes prompts, diferentes parâmetros de temperatura de LLM — tudo isso afeta o resultado. Sem um benchmark sistemático, é difícil descobrir o que exatamente ajuda. Fedorov resolveu o problema radicalmente: criou um projeto de benchmark separado onde o agente trabalha pelas mesmas regras, nos mesmos requisitos, com os mesmos casos extremos.
O que o Benchmark Pode Fazer
- Comparar diferentes versões do agente no mesmo conjunto de dados
- Testar o impacto de melhorias individuais do pipeline (engenharia de prompt, mudanças na lógica de decomposição)
- Experimentar com modelos: GPT-5.5 vs Claude vs outros
- Rastrear o progresso ao longo do tempo com visualização de melhorias
- Gerar um relatório completo sobre o percentual de bugs encontrados, falhas e falsos positivos
Importante: um benchmark não significa "um conjunto de testes ideal." Significa um conjunto de testes controlado, onde as variáveis são minimizadas e cada execução é reproduzível.
Artefatos em uma Única Execução
A cada execução, o agente prepara um pacote completo — requisitos documentados e sua decomposição, cenários de teste com etapas, código de teste automatizado pronto, relatório de cobertura e falhas, log de decisões aceitas e rejeitadas. Todos os artefatos são armazenados em um repositório público, para que você possa ver como o agente raciocina em diferentes exemplos. Isso é útil não apenas para rastrear o progresso, mas também para depuração: quando o agente comete um erro, você pode ver em qual etapa do pipeline e por quê.
O que Isso Significa
Para desenvolvedores de ferramentas QA, benchmarks se tornam obrigatórios — é a única maneira de ser honesto consigo mesmo sobre a qualidade do trabalho. O acesso aberto ao projeto de Fedorov demonstra que tal transparência é possível. Outras equipes trabalhando com agentes AI em testes agora sabem o que precisa ser feito desde o início.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.