Оценка возможностей искусственного интеллекта традиционно сводилась к тестированию отдельных языковых моделей на стандартизированных наборах данных. Однако на практике разработчики используют не просто модели, а сложные системы — AI-агенты, которые включают инструменты, память, механизмы планирования и обработки ошибок. IBM Research представила Open Agent Leaderboard — открытую платформу для оценки именно таких комплексных систем.
Суть инициативы заключается в переходе от тестирования моделей к тестированию агентов. Изменение любого компонента системы (например, алгоритма выбора инструментов) может кардинально повлиять на результат и стоимость выполнения задачи, даже если базовая модель остается прежней. Новый рейтинг позволяет увидеть реальную картину: насколько хорошо работает система в целом и сколько это стоит.
Для создания рейтинга исследователи объединили шесть существующих бенчмарков, охватывающих различные сценарии: программирование (SWE-Bench Verified), поиск информации в интернете (BrowseComp+), выполнение личных задач (AppWorld), а также обслуживание клиентов и техническую поддержку (tau2-Bench). Эти тесты были выбраны из-за их разнообразия — они проверяют работу с кодом, открытые исследования, широкие пространства действий и разговоры по правилам.
Главной технической сложностью стала стандартизация. Разные бенчмарки имеют свои форматы и требования. Команда IBM разработала единый протокол Exgentic, который приводит все тесты к общему формату: задача, контекст и доступные действия. Это позволяет агентам взаимодействовать с разными средами без необходимости индивидуальной настройки под каждую из них.
Первые результаты тестирования принесли несколько важных наблюдений. Во-первых, универсальные агенты уже могут конкурировать со специализированными системами. Во многих случаях агенты без специальной настройки под конкретный бенчмарк показывали результаты на уровне систем, созданных специально для этих задач.
Во-вторых, архитектура агента имеет критическое значение. Хотя выбор базовой модели по-прежнему остается главным фактором, определяющим успех, правильная настройка агента может значительно улучшить результаты. Например, предварительный отбор инструментов (tool shortlisting) повысил эффективность всех протестированных моделей и сделал рабочими те конфигурации, которые ранее не справлялись с задачами.
Третий важный вывод касается стоимости. Анализ показал, что неудачные попытки выполнения задач обходятся на 20-54% дороже успешных. Некоторые агенты быстро определяют невозможность решения, в то время как другие тратят много времени и ресурсов, прежде чем сдаться. Для практического применения в бизнесе понимание того, как агент справляется с неудачами, так же важно, как и его способность достигать успеха.
Проект полностью открыт для сообщества. Доступны сам рейтинг, фреймворк Exgentic для запуска тестов и научная статья с подробным описанием методологии. Недавно в рейтинг были добавлены модели с открытыми весами (DeepSeek V3.2 и Kimi K2.5), которые пока отстают от закрытых коммерческих систем на 18-29 процентных пунктов в среднем.
Open Agent Leaderboard — это шаг к созданию более прозрачной и реалистичной системы оценки AI-агентов. Понимание того, как различные компоненты системы влияют на итоговый результат и стоимость, необходимо для развития индустрии и создания надежных решений для бизнеса.