ServiceNow presentó EVA — un nuevo framework para evaluar agentes de voz con AI

Q: ¿Cuál es la fuente?

Publicado originalmente en Hugging Face Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2 may 2026. Tiempo de lectura: 3 min.

ServiceNow lanzó EVA — un nuevo framework para evaluar agentes de voz con AI. Mide dos cosas a la vez: qué tan bien el agente resuelve la tarea y qué tan…

Redacción de Hamidun News

Monitoreo de AI · Hugging Face Blog

2 may 2026· 3 min

Procesado por IA desde Hugging Face Blog; editado por Hamidun News

ServiceNow presentó EVA — un nuevo framework para evaluar agentes de voz con AI — Fuente: Hugging Face Blog. Collage: Hamidun News.

◐ Escuchar artículo

ServiceNow presentó EVA — un framework para la evaluación end-to-end de agentes de IA por voz, que intenta medir no solo si se completó una tarea, sino también lo conveniente que fue la conversación para el usuario. El proyecto se publicó en el blog de Hugging Face el 24 de marzo de 2026, junto con un dataset abierto, código y resultados iniciales para 20 sistemas.

Por Qué las Pruebas Existentes Son Insuficientes

La mayoría de los benchmarks existentes para IA por voz prueban componentes individuales del sistema de uno en uno: reconocimiento de voz, calidad de síntesis, tiempo de respuesta o capacidad para invocar herramientas. En la práctica, esto es insuficiente. Los usuarios no interactúan con STT, TTS o LLM de forma aislada — conversan con un único agente que debe entender la solicitud, mantener el contexto, invocar herramientas correctamente y completar la tarea sin confusión en un diálogo en vivo.

Por esto los autores de EVA proponen evaluar un agente de voz como un producto completo. En un escenario telefónico, incluso un pequeño error arruina rápidamente toda la experiencia: un código de confirmación mal interpretado hace inútil la buena lógica del modelo, una larga lista de opciones es difícil de comprender cuando se habla, y una pausa adicional hace que el usuario pida aclaración o abandone la llamada. Las métricas antiguas a menudo no capturan estos fallos porque evalúan componentes de forma aislada y fuera del escenario general del usuario.

Cómo Funciona EVA

EVA se construye como una verificación end-to-end de una conversación multiturno en audio. El sistema simula una llamada telefónica real entre un agente de voz y un bot de usuario que actúa según un objetivo y rol definidos. El agente debe usar herramientas, seguir las reglas del escenario y alcanzar un estado final verificable. En la versión inicial, los autores publicaron un dataset sintético de aerolínea con 50 escenarios y 15 herramientas: desde cambios de vuelos hasta cancelaciones, standby y vales para pasajeros.

Simulador de usuario define el objetivo, comportamiento y manera de hablar del llamador
Agente de voz pasa la prueba en flujo de audio real
Ejecutor de herramientas devuelve respuestas determinísticas y cambia el estado de la base de datos del escenario
Validadores filtran ejecuciones de baja calidad sin anotación manual
Un conjunto de métricas analiza la grabación de la conversación, transcripción y registros de llamadas de herramientas

EVA tiene dos puntuaciones agregadas principales. EVA-A mide precisión: ¿llegó el agente al resultado correcto, inventó políticas, distorsionó entidades importantes como números de vuelos o cantidades? EVA-X mide experiencia del usuario: ¿fue la respuesta lo suficientemente breve para un canal hablado, avanzó la conversación sin repeticiones y habló el agente en el momento correcto? Los autores también calculan pass@3 y pass^3 para ver no solo la mejor ejecución, sino también la estabilidad conductual entre múltiples intentos en el mismo escenario.

Lo Que Mostraron las Pruebas

El equipo ejecutó 20 sistemas a través de EVA — propietarios y de código abierto, en cascada y nativos de audio — y llegó a una conclusión principal: existe un compromiso persistente entre precisión y calidad de conversación. Ninguna configuración domina en ambos ejes simultáneamente. Algunos agentes mejor completan la tarea pero hacen la conversación menos conveniente; otros suenan más naturales pero cometen más errores en pasos críticos y en escenarios largos multiturno. Esto hace que la comparación de modelos sea notablemente más honesta que un pass/fail binario típico.

"Los agentes que son mejores en completar tareas a menudo proporcionan

una peor experiencia del usuario, y viceversa."

Otro fallo notable se relaciona con entidades nombradas. Una única letra mal interpretada en un código de confirmación o número de vuelo puede romper la autenticación y colapsar todo el escenario. Los autores también señalan que las operaciones multipasos resultaron particularmente desafiadoras — por ejemplo, cuando necesita cambiar un vuelo mientras preserva servicios adicionales como equipaje y selección de asientos. Al mismo tiempo, la brecha entre pass@3 y pass^3 resultó ser grande para muchos sistemas: un agente puede resolver una tarea una vez pero no hacerlo consistentemente. También es importante que el lanzamiento actual aún esté limitado a escenarios en inglés en aviación, por lo que adelante están expansiones a condiciones ruidosas, acentos, otros idiomas y nuevos dominios.

Lo Que Esto Significa

El mercado de agentes de voz se está desplazando de demostraciones vistosas hacia evaluación de ingeniería más rigurosa. Si EVA o frameworks similares cuajan, los ganadores no serán sistemas que simplemente suenen naturales, sino aquellos que sean simultáneamente precisos, concisos y lleven confiablemente las conversas a resultados en escenarios reales, no solo en ejecuciones individuales afortunadas. Para implementaciones empresariales, este es un cambio particularmente importante.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita