ServiceNow presentó EVA — un nuevo framework para evaluar agentes de voz con AI
ServiceNow lanzó EVA — un nuevo framework para evaluar agentes de voz con AI. Mide dos cosas a la vez: qué tan bien el agente resuelve la tarea y qué tan cómodo
ServiceNow представила EVA — фреймворк для сквозной оценки голосовых AI-агентов, который пытается измерять не только факт выполнения задачи, но и то, насколько разговор вообще был удобным для человека. Проект опубликован в блоге Hugging Face 24 марта 2026 года вместе с открытым датасетом, кодом и первыми результатами по 20 системам.
Почему старых тестов мало
Большинство существующих бенчмарков для voice AI проверяют отдельные куски системы по одному: распознавание речи, качество синтеза, тайминг реплик или умение вызывать инструменты. На практике этого мало. Пользователь не общается с STT, TTS или LLM по отдельности — он разговаривает с одним агентом, который должен понять запрос, не потерять контекст, корректно обратиться к инструментам и довести задачу до конца без путаницы в живом диалоге.
Именно поэтому авторы EVA предлагают смотреть на голосового агента как на цельный продукт. В телефонном сценарии даже мелкая ошибка быстро ломает весь опыт: неверно услышанный код подтверждения делает бесполезной хорошую логику модели, длинный список вариантов тяжело воспринимать на слух, а лишняя пауза заставляет человека переспросить или бросить диалог. Старые метрики такие сбои часто не ловят, потому что они оценивают компоненты изолированно и вне общего пользовательского сценария.
Как устроена EVA EVA построена как end-to-end проверка многошагового разговора в аудио.
Система симулирует реальный звонок между голосовым агентом и ботом-пользователем, который действует по заданной цели и роли. Агент должен пользоваться инструментами, соблюдать правила сценария и прийти к проверяемому финальному состоянию. В стартовой версии авторы выпустили синтетический airline-датасет на 50 сценариев и 15 инструментов: от перебронирования рейсов до отмен, standby и ваучеров для пассажиров.
- Симулятор пользователя задаёт цель, поведение и манеру речи звонящего Голосовой агент проходит тест в реальном аудиопотоке Исполнитель инструментов отдаёт детерминированные ответы и меняет состояние сценарной базы Валидаторы отсеивают некачественные прогоны без ручной разметки Набор метрик анализирует запись разговора, транскрипт и логи tool calls У EVA две главные итоговые оценки. EVA-A отвечает за точность: дошёл ли агент до правильного результата, не выдумал ли политику, не исказил ли важные сущности вроде номера рейса или суммы. EVA-X отвечает за пользовательский опыт: был ли ответ достаточно коротким для устного канала, двигался ли разговор вперёд без повторов и говорил ли агент в нужный момент. Авторы также считают pass@3 и pass^3, чтобы видеть не только лучший прогон, но и стабильность поведения между несколькими попытками в одном и том же сценарии.
Что показали тесты
Команда прогнала через EVA 20 систем — проприетарных и open-source, каскадных и audio-native — и получила главный вывод: между точностью и качеством разговора есть устойчивый компромисс. Ни одна конфигурация не доминирует сразу по обеим осям. Одни агенты лучше закрывают задачу, но делают разговор менее удобным; другие звучат приятнее, но чаще ошибаются в критичных шагах и на длинных многоходовых сценариях. Это делает сравнение моделей заметно честнее, чем обычный бинарный pass/fail.
«Агенты, которые лучше справляются с выполнением задачи, часто дают худший пользовательский опыт, и наоборот».
Ещё один заметный провал связан с именованными сущностями. Одна неверно распознанная буква в коде подтверждения или номере рейса может сорвать аутентификацию и обрушить весь сценарий. Отдельно авторы отмечают, что особенно тяжёлыми оказываются многошаговые операции — например, когда нужно перебронировать перелёт и одновременно сохранить допуслуги вроде багажа и мест. При этом разрыв между pass@3 и pass^3 у многих систем оказался большим: агент может решить задачу один раз, но не делать это стабильно. Важно и то, что текущий релиз пока ограничен английскими сценариями в авиации, поэтому впереди расширение на шумные условия, акценты, другие языки и новые домены.
Что это значит
Рынок голосовых агентов сдвигается от красивых демо к более жёсткой инженерной проверке. Если EVA или похожие фреймворки приживутся, выигрывать будут не те системы, которые просто звучат естественно, а те, что одновременно точны, кратки и повторяемо доводят разговор до результата в реальных сценариях, а не только в удачных единичных прогонах. Для корпоративных внедрений это особенно важный сдвиг.