Открытые модели догнали проприетарные в базовых агентских задачах
Результаты тестов LangChain показывают, что открытые модели справляются с вызовом инструментов и работой с файлами на уровне флагманов, но обходятся в десятки раз дешевле.
Результаты тестов LangChain показывают, что открытые модели справляются с вызовом инструментов и работой с файлами на уровне флагманов, но обходятся в десятки раз дешевле.
2 мин

Команда LangChain опубликовала результаты тестирования больших языковых моделей (LLM) в рамках платформы Deep Agents. Главный вывод: модели с открытыми весами, такие как GLM-5 и MiniMax M2.7, достигли порога, за которым они могут на равных конкурировать с закрытыми флагманскими решениями в базовых агентских задачах.
Разработчики ИИ-агентов долгое время сталкивались с дилеммой. В идеальном мире для каждой задачи хотелось бы использовать самую мощную модель с максимальным уровнем рассуждения. На практике этому мешают два фактора: высокая стоимость и задержка (latency). Закрытые флагманы обходятся слишком дорого при высоких нагрузках и работают слишком медленно для интерактивных продуктов.

Изображение из источника
Опубликованные данные наглядно демонстрируют разрыв в экономике. Приложение, генерирующее 10 миллионов токенов в день, потратит около 250 долларов при использовании Claude Opus. Аналогичный объем на модели MiniMax M2.7 обойдется всего в 12 долларов. В годовом исчислении экономия составляет внушительные 87 тысяч долларов.
Помимо стоимости, открытые модели выигрывают в скорости. Благодаря меньшему размеру их можно эффективно ускорять на специализированной инфраструктуре. Например, GLM-5 генерирует около 70 токенов в секунду со средней задержкой 0.65 секунды. Для сравнения, Claude Opus выдает 34 токена в секунду при задержке 2.56 секунды. Для продуктов, чувствительных к скорости отклика, этот разрыв критичен.

Изображение из источника
В ходе тестов модели проверялись на семи категориях задач: работа с файлами, использование инструментов, поиск информации, поддержание диалога, память, суммаризация и модульные тесты. Открытые модели показали высокую надежность в вызове функций и следовании структурированным инструкциям. Это именно те базовые навыки, которые определяют, пригодна ли модель для работы в качестве автономного агента.
Достижение паритета в базовых задачах меняет подход к проектированию ИИ-систем. Разработчикам больше не нужно полагаться исключительно на дорогие проприетарные API для каждого шага. Инструменты вроде Deep Agents уже позволяют переключать модели прямо в процессе работы.
В ближайшем будущем стандартом индустрии станут гибридные архитектуры. Тяжелые и дорогие флагманские модели будут привлекаться только для высокоуровневого планирования и решения сложных логических задач. Всю рутинную работу — исполнение кода, работу с файловой системой и вызов внешних инструментов — возьмут на себя быстрые и экономичные открытые модели.
Открытые модели стали жизнеспособной альтернативой закрытым флагманам для создания ИИ-агентов, предлагая сопоставимое качество при радикально меньших затратах.
Архитектура будущих ИИ-приложений будет гибридной: дорогие модели будут использоваться только для сложного планирования, а всю рутину возьмут на себя быстрые и дешевые открытые аналоги.