Что такое Open Agent Leaderboard?

Open Agent Leaderboard — это открытая платформа от IBM Research для комплексной оценки AI-агентов, которая учитывает не только качество выполнения задач, но и стоимость их использования в реальных сценариях.

Почему IBM оценивает AI-агентов, а не только отдельные модели?

Традиционная оценка моделей не отражает реальную производительность AI-агентов, которые являются сложными системами с инструментами, памятью и механизмами планирования. IBM перешла к оценке агентов, чтобы получить более полную картину их эффективности и стоимости.

Какие бенчмарки используются в Open Agent Leaderboard?

Для оценки AI-агентов Open Agent Leaderboard объединяет шесть бенчмарков, включая задачи по программированию (SWE-Bench Verified), поиску информации в интернете (BrowseComp+), выполнению личных задач (AppWorld) и обслуживанию клиентов (tau2-Bench).

Что такое протокол Exgentic?

Exgentic — это унифицированный протокол, разработанный IBM для стандартизации различных бенчмарков. Он позволяет AI-агентам взаимодействовать с разными тестовыми средами, приводя все задачи к единому формату: задача, контекст и доступные действия.

Какие основные выводы были сделаны по результатам первых тестов AI-агентов?

Первые тесты показали, что универсальные агенты могут конкурировать со специализированными, архитектура агента критически важна для улучшения результатов, а неудачные попытки выполнения задач значительно увеличивают их стоимость.

IBM запускает Open Agent Leaderboard: новый стандарт оцен...

Оценка возможностей искусственного интеллекта традиционно сводилась к тестированию отдельных языковых моделей на стандартизированных наборах данных. Однако на практике разработчики используют не просто модели, а сложные системы — AI-агенты, которые включают инструменты, память, механизмы планирования и обработки ошибок. IBM Research представила Open Agent Leaderboard — открытую платформу для оценки именно таких комплексных систем.

Суть инициативы заключается в переходе от тестирования моделей к тестированию агентов. Изменение любого компонента системы (например, алгоритма выбора инструментов) может кардинально повлиять на результат и стоимость выполнения задачи, даже если базовая модель остается прежней. Новый рейтинг позволяет увидеть реальную картину: насколько хорошо работает система в целом и сколько это стоит.

Для создания рейтинга исследователи объединили шесть существующих бенчмарков, охватывающих различные сценарии: программирование (SWE-Bench Verified), поиск информации в интернете (BrowseComp+), выполнение личных задач (AppWorld), а также обслуживание клиентов и техническую поддержку (tau2-Bench). Эти тесты были выбраны из-за их разнообразия — они проверяют работу с кодом, открытые исследования, широкие пространства действий и разговоры по правилам.

Главной технической сложностью стала стандартизация. Разные бенчмарки имеют свои форматы и требования. Команда IBM разработала единый протокол Exgentic, который приводит все тесты к общему формату: задача, контекст и доступные действия. Это позволяет агентам взаимодействовать с разными средами без необходимости индивидуальной настройки под каждую из них.

Первые результаты тестирования принесли несколько важных наблюдений. Во-первых, универсальные агенты уже могут конкурировать со специализированными системами. Во многих случаях агенты без специальной настройки под конкретный бенчмарк показывали результаты на уровне систем, созданных специально для этих задач.

Во-вторых, архитектура агента имеет критическое значение. Хотя выбор базовой модели по-прежнему остается главным фактором, определяющим успех, правильная настройка агента может значительно улучшить результаты. Например, предварительный отбор инструментов (tool shortlisting) повысил эффективность всех протестированных моделей и сделал рабочими те конфигурации, которые ранее не справлялись с задачами.

Третий важный вывод касается стоимости. Анализ показал, что неудачные попытки выполнения задач обходятся на 20-54% дороже успешных. Некоторые агенты быстро определяют невозможность решения, в то время как другие тратят много времени и ресурсов, прежде чем сдаться. Для практического применения в бизнесе понимание того, как агент справляется с неудачами, так же важно, как и его способность достигать успеха.

Проект полностью открыт для сообщества. Доступны сам рейтинг, фреймворк Exgentic для запуска тестов и научная статья с подробным описанием методологии. Недавно в рейтинг были добавлены модели с открытыми весами (DeepSeek V3.2 и Kimi K2.5), которые пока отстают от закрытых коммерческих систем на 18-29 процентных пунктов в среднем.

Open Agent Leaderboard — это шаг к созданию более прозрачной и реалистичной системы оценки AI-агентов. Понимание того, как различные компоненты системы влияют на итоговый результат и стоимость, необходимо для развития индустрии и создания надежных решений для бизнеса.

IBM запускает Open Agent Leaderboard: новый стандарт оценки AI-агентов

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Партнерство Google DeepMind и киностудии A24: интеграция искусственного интеллекта в творческий процесс

Новые системы безопасности Anthropic: классификация киберугроз и оценка джейлбрейков в Fable 5

Фильтрация памяти ИИ-агентов с помощью метаданных в Amazon AgentCore

Гайды по теме