IBM представила VAKRA: новый бенчмарк для проверки ИИ-агентов в корпоративной среде
Исследователи IBM Research выпустили VAKRA — систему оценки, которая проверяет способность ИИ-агентов решать сложные многошаговые задачи с использованием тысяч корпоративных API и баз данных.

Суть
Исследовательское подразделение IBM Research совместно с платформой Hugging Face представило VAKRA — новый бенчмарк для оценки искусственного интеллекта. В отличие от привычных тестов, VAKRA измеряет способность ИИ-агентов работать в реалистичной корпоративной среде. Главное нововведение заключается в том, что система оценивает не только финальный ответ модели, но и всю цепочку ее рассуждений и действий при работе с программными интерфейсами (API) и документами.
Контекст
Долгое время качество больших языковых моделей (LLM) измерялось на изолированных задачах: ответы на вопросы, написание кода или суммаризация текста. Однако внедрение ИИ в корпоративный сектор требует совершенно иного подхода. Агентам необходимо взаимодействовать с внутренними базами данных, извлекать информацию из множества источников и строго следовать корпоративным правилам. Традиционные бенчмарки не способны проверить, насколько надежно агент выполняет такие многошаговые рабочие процессы.
Детали
Бенчмарк VAKRA представляет собой исполняемую среду, в которой агенты взаимодействуют с более чем 8000 локально размещенных API. Эти интерфейсы опираются на реальные базы данных, охватывающие 62 предметные области. Задачи требуют от агента построения цепочек из 3–7 логических шагов.
Тестирование разделено на четыре ключевых навыка (capabilities):
- Цепочки вызовов API (API Chaining): Агент должен последовательно применить от 1 до 12 инструментов для извлечения и фильтрации данных, подобно работе с системами бизнес-аналитики.
- Выбор инструментов (Tool Selection): В каждой предметной области доступно от 6 до 328 специализированных API. Агент должен самостоятельно отобрать нужные инструменты. Это особенно сложно, учитывая, что стандартные спецификации (например, OpenAI API) ограничивают список доступных инструментов до 128 пунктов.



