Суть
Разработка разговорных голосовых агентов сталкивается с уникальной проблемой оценки: они должны одновременно удовлетворять двум целям. Первая — точность (правильное выполнение задачи пользователя), вторая — разговорный опыт (естественность, лаконичность и уместность речевого взаимодействия). Команда ServiceNow-AI представила EVA (Evaluating Voice Agents) — первый сквозной фреймворк, который оценивает оба этих аспекта в комплексе.
Эти две цели глубоко взаимосвязаны. Если система неверно расслышит код подтверждения, идеальная логика большой языковой модели (LLM) теряет смысл. Если агент выдает длинную стену текста голосом, пользователь перегружается информацией, так как не может «пробежаться» по ней глазами. EVA решает эту проблему, предлагая единый подход к тестированию.
Контекст
До появления EVA индустрия не имела инструмента для оценки полного цикла взаимодействия с голосовым агентом. Существующие решения оценивают компоненты изолированно.
Одни бенчмарки (например, AudioBench или VoxEval) проверяют базовые возможности распознавания речи и акустические сигналы, но работают в формате одиночных реплик без интерактива. Другие тесты оценивают качество синтеза речи (TTS) с помощью субъективных оценок слушателей. Более новые фреймворки пытаются оценивать использование инструментов и следование инструкциям, но они не учитывают полный рабочий процесс, с которым агент сталкивается на практике: от первоначального запроса до многошаговой оркестрации инструментов в реальном времени.
Детали
Фреймворк EVA использует архитектуру «бот-с-ботом» (bot-to-bot) для симуляции многошаговых голосовых разговоров. В ней участвуют пять ключевых компонентов: симулятор пользователя с заданным поведением и целью, сам тестируемый голосовой агент, исполнитель инструментов (Tool Executor) для работы с базами данных, валидаторы для проверки корректности симуляции и набор метрик.
Оценка делится на два главных направления:
-
EVA-A (Точность): Оценивает выполнение задачи (сравнение состояния базы данных до и после), достоверность ответов агента (отсутствие галлюцинаций) и точность речи. Последний параметр использует большие аудио-языковые модели (LALM) в качестве судей, чтобы проверить, правильно ли агент произнес критически важные данные, такие как номера рейсов или суммы.
-
EVA-X (Опыт общения): Анализирует лаконичность (подходит ли длина ответа для восприятия на слух), развитие разговора (отсутствие повторений и удержание контекста) и динамику передачи очереди разговора (turn-taking).
Первый набор данных для тестирования включает 50 сценариев из сферы авиаперевозок: перебронирование билетов, отмена рейсов, работа с ваучерами.
Анализ
Самый важный вывод, к которому пришли исследователи при тестировании 20 различных систем: в современной индустрии существует устойчивый компромисс между точностью и качеством общения.
Агенты, которые демонстрируют высокие результаты в успешном завершении задач, как правило, обеспечивают худший пользовательский опыт. И наоборот, системы с естественным и плавным диалогом часто ошибаются в фактическом выполнении поручений. Это показывает, что разработчикам предстоит проделать большую работу по интеграции логических способностей LLM с ограничениями и спецификой голосовых интерфейсов.
Перспектива
Появление EVA знаменует переход индустрии от создания просто «говорящих чат-ботов» к разработке полноценных голосовых ассистентов корпоративного уровня. Понимание того, как метрики точности и опыта влияют друг на друга в реальных условиях развертывания, позволит компаниям создавать более надежные системы. В будущем ServiceNow планирует расширить набор данных, добавив сценарии из других предметных областей, что сделает фреймворк универсальным стандартом для рынка.