ServiceNow представила EVA: новый стандарт комплексной оценки голосовых ИИ-агентов
Исследователи из ServiceNow-AI разработали фреймворк EVA, который впервые позволяет одновременно оценивать точность выполнения задач и качество диалога голосовых помощников.

Суть
Разработка разговорных голосовых агентов сталкивается с уникальной проблемой оценки: они должны одновременно удовлетворять двум целям. Первая — точность (правильное выполнение задачи пользователя), вторая — разговорный опыт (естественность, лаконичность и уместность речевого взаимодействия). Команда ServiceNow-AI представила EVA (Evaluating Voice Agents) — первый сквозной фреймворк, который оценивает оба этих аспекта в комплексе.
Эти две цели глубоко взаимосвязаны. Если система неверно расслышит код подтверждения, идеальная логика большой языковой модели (LLM) теряет смысл. Если агент выдает длинную стену текста голосом, пользователь перегружается информацией, так как не может «пробежаться» по ней глазами. EVA решает эту проблему, предлагая единый подход к тестированию.
Контекст
До появления EVA индустрия не имела инструмента для оценки полного цикла взаимодействия с голосовым агентом. Существующие решения оценивают компоненты изолированно.
Одни бенчмарки (например, AudioBench или VoxEval) проверяют базовые возможности распознавания речи и акустические сигналы, но работают в формате одиночных реплик без интерактива. Другие тесты оценивают качество синтеза речи (TTS) с помощью субъективных оценок слушателей. Более новые фреймворки пытаются оценивать использование инструментов и следование инструкциям, но они не учитывают полный рабочий процесс, с которым агент сталкивается на практике: от первоначального запроса до многошаговой оркестрации инструментов в реальном времени.
Детали
Фреймворк EVA использует архитектуру «бот-с-ботом» (bot-to-bot) для симуляции многошаговых голосовых разговоров. В ней участвуют пять ключевых компонентов: симулятор пользователя с заданным поведением и целью, сам тестируемый голосовой агент, исполнитель инструментов (Tool Executor) для работы с базами данных, валидаторы для проверки корректности симуляции и набор метрик.
Оценка делится на два главных направления:



