ServiceNow apresentou EVA — um novo framework para avaliar agentes de voz com AI
A ServiceNow lançou o EVA — um novo framework para avaliar agentes de voz com AI. Ele mede duas coisas ao mesmo tempo: o quanto o agente resolve a tarefa e o…
Processado por IA de Hugging Face Blog; editado por Hamidun News
A ServiceNow apresentou EVA — um framework para avaliação end-to-end de agentes de IA por voz, que tenta medir não apenas se uma tarefa foi concluída, mas também o quão conveniente foi a conversa para o usuário. O projeto foi publicado no blog da Hugging Face em 24 de março de 2026, junto com um dataset aberto, código e resultados iniciais para 20 sistemas.
Por Que Testes Existentes São Insuficientes
A maioria dos benchmarks existentes para IA por voz testa componentes individuais do sistema isoladamente: reconhecimento de fala, qualidade de síntese, tempo de resposta ou capacidade de chamar ferramentas. Na prática, isso é insuficiente. Os usuários não interagem com STT, TTS ou LLM isoladamente — eles conversam com um único agente que deve entender o pedido, manter o contexto, invocar ferramentas corretamente e completar a tarefa sem confusão em um diálogo ao vivo.
É por isso que os autores do EVA propõem avaliar um agente de voz como um produto completo. Em um cenário telefônico, até um pequeno erro rapidamente arruína toda a experiência: um código de confirmação mal compreendido torna inútil a boa lógica do modelo, uma longa lista de opções é difícil de compreender quando falada, e uma pausa extra faz o usuário pedir esclarecimento ou desistir da chamada. Métricas antigas geralmente não capturam essas falhas porque avaliam componentes isoladamente e fora do cenário geral do usuário.
Como EVA Funciona
EVA é construída como uma verificação end-to-end de uma conversa multi-turno em áudio. O sistema simula uma chamada telefônica real entre um agente de voz e um bot de usuário que age de acordo com um objetivo e papel definidos. O agente deve usar ferramentas, seguir as regras do cenário e alcançar um estado final verificável. Na versão inicial, os autores publicaram um dataset de companhia aérea sintético com 50 cenários e 15 ferramentas: desde reagendamento de voos até cancelamentos, standby e vouchers para passageiros.
- Simulador de usuário define o objetivo, comportamento e maneira de falar do chamador
- Agente de voz passa no teste em fluxo de áudio real
- Executor de ferramentas retorna respostas determinísticas e altera o estado do banco de dados do cenário
- Validadores filtram execuções de baixa qualidade sem anotação manual
- Um conjunto de métricas analisa a gravação da conversa, transcrição e logs de chamadas de ferramentas
EVA tem duas pontuações agregadas principais. EVA-A mede precisão: o agente chegou ao resultado correto, inventou políticas, distorceu entidades importantes como números de voos ou valores? EVA-X mede experiência do usuário: a resposta foi curta o suficiente para um canal falado, a conversa avançou sem repetições e o agente falou no momento certo? Os autores também calculam pass@3 e pass^3 para ver não apenas a melhor execução, mas também a estabilidade comportamental entre múltiplas tentativas no mesmo cenário.
O Que os Testes Mostraram
A equipe executou 20 sistemas através do EVA — proprietários e open-source, em cascata e nativos de áudio — e chegou a uma conclusão principal: existe um trade-off persistente entre precisão e qualidade da conversa. Nenhuma configuração domina em ambos os eixos simultaneamente. Alguns agentes completam melhor a tarefa, mas tornam a conversa menos conveniente; outros soam mais naturais, mas cometem mais erros em etapas críticas e em cenários longos multi-turno. Isso torna a comparação de modelos notavelmente mais honesta do que um pass/fail binário típico.
"Agentes que são melhores em completar tarefas frequentemente fornecem
pior experiência do usuário, e vice-versa."
Outra falha notável está relacionada a entidades nomeadas. Uma única letra mal compreendida em um código de confirmação ou número de voo pode quebrar a autenticação e desmoronar todo o cenário. Os autores também observam que operações multi-etapas se mostraram particularmente desafiadoras — por exemplo, quando você precisa reagendar um voo enquanto preserva serviços adicionais como bagagem e seleção de assentos. Ao mesmo tempo, a lacuna entre pass@3 e pass^3 se mostrou grande para muitos sistemas: um agente pode resolver uma tarefa uma vez, mas não fazer isso consistentemente. Também é importante que o lançamento atual ainda esteja limitado a cenários em inglês na aviação, portanto, à frente estão expansões para condições barulhentas, sotaques, outros idiomas e novos domínios.
O Que Isso Significa
O mercado de agentes de voz está se deslocando de demos chamativas para avaliação de engenharia mais rigorosa. Se EVA ou frameworks similares pegarem, os vencedores não serão sistemas que simplesmente soam naturais, mas aqueles que são simultaneamente precisos, concisos e levam as conversas de forma confiável aos resultados em cenários reais, não apenas em execuções únicas com sorte. Para implantações corporativas, essa é uma mudança particularmente importante.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.