Суть
Исследовательское подразделение IBM Research совместно с платформой Hugging Face представило VAKRA — новый бенчмарк для оценки искусственного интеллекта. В отличие от привычных тестов, VAKRA измеряет способность ИИ-агентов работать в реалистичной корпоративной среде. Главное нововведение заключается в том, что система оценивает не только финальный ответ модели, но и всю цепочку ее рассуждений и действий при работе с программными интерфейсами (API) и документами.
Контекст
Долгое время качество больших языковых моделей (LLM) измерялось на изолированных задачах: ответы на вопросы, написание кода или суммаризация текста. Однако внедрение ИИ в корпоративный сектор требует совершенно иного подхода. Агентам необходимо взаимодействовать с внутренними базами данных, извлекать информацию из множества источников и строго следовать корпоративным правилам. Традиционные бенчмарки не способны проверить, насколько надежно агент выполняет такие многошаговые рабочие процессы.
Детали
Бенчмарк VAKRA представляет собой исполняемую среду, в которой агенты взаимодействуют с более чем 8000 локально размещенных API. Эти интерфейсы опираются на реальные базы данных, охватывающие 62 предметные области. Задачи требуют от агента построения цепочек из 3–7 логических шагов.
Тестирование разделено на четыре ключевых навыка (capabilities):
- Цепочки вызовов API (API Chaining): Агент должен последовательно применить от 1 до 12 инструментов для извлечения и фильтрации данных, подобно работе с системами бизнес-аналитики.
- Выбор инструментов (Tool Selection): В каждой предметной области доступно от 6 до 328 специализированных API. Агент должен самостоятельно отобрать нужные инструменты. Это особенно сложно, учитывая, что стандартные спецификации (например, OpenAI API) ограничивают список доступных инструментов до 128 пунктов.
- Многошаговые рассуждения (Multi-Hop Reasoning): Решение задачи требует объединения данных из нескольких независимых запросов к API.
- Сложные рассуждения с соблюдением политик (Multi-Source Reasoning and Policy Adherence): Самый сложный уровень. Агент должен комбинировать запросы к API с поиском по документам (RAG), вести многошаговый диалог и строго соблюдать заданные ограничения (например, использовать только документы для определенного типа вопросов).
Оценка результатов происходит по каскадному принципу (waterfall-style pipeline). Сначала система проверяет, нарушил ли агент корпоративные политики. Затем анализируется траектория вызовов API — правильные ли инструменты были использованы. Только после успешного прохождения этих этапов оценивается финальный ответ.
Анализ
Появление VAKRA фиксирует важный сдвиг в индустрии: фокус смещается с генерации текста на выполнение действий. Текущие модели показывают крайне низкие результаты в этом бенчмарке. Это объясняется тем, что современные LLM часто теряют контекст при длинных цепочках вызовов или не справляются с выбором нужного инструмента из сотен доступных. Строгий контроль траектории выполнения вскрывает фундаментальные проблемы в планировании (planning), которыми страдают текущие архитектуры.
Перспектива
В ближайшие годы подобные исполняемые бенчмарки станут стандартом для индустрии. Разработчикам моделей придется уделять больше внимания механизмам маршрутизации задач и соблюдению ограничений (policy adherence). Вероятно, мы увидим появление специализированных моделей, обученных не на текстах из интернета, а на логах взаимодействия с корпоративными системами и базами данных.