Что такое VAKRA?

VAKRA — это новый бенчмарк от IBM Research и Hugging Face, предназначенный для оценки способности ИИ-агентов решать сложные многошаговые задачи в реалистичной корпоративной среде, взаимодействуя с тысячами API и базами данных. Он проверяет не только конечный результат, но и всю цепочку рассуждений и действий агента.

Чем VAKRA отличается от других тестов ИИ?

В отличие от традиционных бенчмарков, которые измеряют изолированные задачи вроде суммаризации или написания кода, VAKRA оценивает способность ИИ-агентов работать с внутренними корпоративными системами, извлекать информацию из множества источников и строго соблюдать правила. Он фокусируется на многошаговых рабочих процессах и взаимодействии с реальными API.

Какие навыки ИИ-агентов проверяет бенчмарк VAKRA?

VAKRA оценивает четыре ключевых навыка: последовательное применение API, выбор нужных инструментов из сотен доступных, многошаговые рассуждения с объединением данных, а также сложные рассуждения с соблюдением корпоративных политик и поиском по документам. Оценка включает проверку соблюдения политик и правильности вызовов API.

Почему современные ИИ-модели показывают низкие результаты в VAKRA?

Текущие большие языковые модели часто теряют контекст при длинных цепочках вызовов API и испытывают трудности с выбором правильного инструмента из большого набора. Строгий контроль траектории выполнения в VAKRA выявляет фундаментальные проблемы в планировании действий, присущие современным архитектурам ИИ.

Как VAKRA повлияет на развитие ИИ в будущем?

Появление VAKRA указывает на сдвиг в индустрии от генерации текста к выполнению действий, что сделает подобные исполняемые бенчмарки стандартом. Разработчикам придется больше внимания уделять механизмам маршрутизации задач и соблюдению ограничений, возможно, создавая специализированные модели, обученные на логах взаимодействия с корпоративными системами.

IBM представила VAKRA: новый бенчмарк для проверки ИИ-аге...

IBM представила VAKRA: новый бенчмарк для проверки ИИ-агентов в корпоративной среде

Исследователи IBM Research выпустили VAKRA — систему оценки, которая проверяет способность ИИ-агентов решать сложные многошаговые задачи с использованием тысяч корпоративных API и баз данных.

15.04.2026, 21:05

Обновлено:19.05.2026, 07:50

3 мин чтения

0 просмотров

Суть

Исследовательское подразделение IBM Research совместно с платформой Hugging Face представило VAKRA — новый бенчмарк для оценки искусственного интеллекта. В отличие от привычных тестов, VAKRA измеряет способность ИИ-агентов работать в реалистичной корпоративной среде. Главное нововведение заключается в том, что система оценивает не только финальный ответ модели, но и всю цепочку ее рассуждений и действий при работе с программными интерфейсами (API) и документами.

Контекст

Долгое время качество больших языковых моделей (LLM) измерялось на изолированных задачах: ответы на вопросы, написание кода или суммаризация текста. Однако внедрение ИИ в корпоративный сектор требует совершенно иного подхода. Агентам необходимо взаимодействовать с внутренними базами данных, извлекать информацию из множества источников и строго следовать корпоративным правилам. Традиционные бенчмарки не способны проверить, насколько надежно агент выполняет такие многошаговые рабочие процессы.

Детали

Бенчмарк VAKRA представляет собой исполняемую среду, в которой агенты взаимодействуют с более чем 8000 локально размещенных API. Эти интерфейсы опираются на реальные базы данных, охватывающие 62 предметные области. Задачи требуют от агента построения цепочек из 3–7 логических шагов.

Тестирование разделено на четыре ключевых навыка (capabilities):

Цепочки вызовов API (API Chaining): Агент должен последовательно применить от 1 до 12 инструментов для извлечения и фильтрации данных, подобно работе с системами бизнес-аналитики.
Выбор инструментов (Tool Selection): В каждой предметной области доступно от 6 до 328 специализированных API. Агент должен самостоятельно отобрать нужные инструменты. Это особенно сложно, учитывая, что стандартные спецификации (например, OpenAI API) ограничивают список доступных инструментов до 128 пунктов.