Прогноз Gartner: стоимость вывода больших языковых моделе...

Суть

К 2030 году затраты провайдеров генеративного искусственного интеллекта на выполнение вывода (inference) для моделей с одним триллионом параметров снизятся более чем на 90% по сравнению с 2025 годом. Такой прогноз представила исследовательская компания Gartner. Это означает, что базовая стоимость обработки данных большими языковыми моделями (LLM) стремится к нулю, однако это не приведет к автоматическому и пропорциональному снижению расходов для конечных корпоративных клиентов.

Контекст

Вывод или инференс — это процесс, при котором уже обученная нейросеть обрабатывает запрос пользователя и генерирует ответ. Стоимость этого процесса измеряется в токенах. В методологии Gartner один токен приравнивается к 3.5 байтам данных или примерно к четырем символам текста.

Исторически запуск передовых моделей требовал колоссальных вычислительных мощностей. Однако технологии развиваются. По оценкам аналитиков, к концу десятилетия модели станут в 100 раз более экономичными в эксплуатации, чем их ранние аналоги сопоставимого размера, выпущенные в 2022 году.

Детали

Снижение стоимости токенов не происходит само по себе. Gartner выделяет несколько ключевых факторов, которые обеспечат эту динамику:

Повышение эффективности полупроводников и серверной инфраструктуры.
Инновации в архитектуре самих моделей.
Более высокая утилизация (эффективность использования) чипов.
Массовое внедрение специализированных процессоров, созданных исключительно для вывода, а не для обучения.
Перенос части вычислений на конечные устройства (edge devices), такие как смартфоны и ПК.

Исследователи разделяют прогнозы на два сценария. Первый — «передовой» (frontier), основанный на использовании самых современных чипов. Второй — «смешанный» (legacy blend), предполагающий использование парка доступного на рынке оборудования. Во втором случае затраты остаются существенно выше из-за меньшей вычислительной мощности старых процессоров.

Анализ

Главный вывод отчета кроется в парадоксе: несмотря на удешевление единицы вычислений, общие расходы на ИИ-инфраструктуру будут расти. Удешевление базовых токенов не приведет к полной демократизации так называемого передового интеллекта (frontier intelligence).

Причина заключается в изменении характера использования ИИ. На смену обычным чат-ботам приходят агентные модели (agentic models). Такие системы способны самостоятельно планировать действия, исправлять ошибки и выполнять многоступенчатые задачи. Агентный подход требует от 5 до 30 раз больше токенов на одну задачу по сравнению со стандартным запросом к чат-боту.

Спрос на токены будет расти быстрее, чем падать их стоимость. Директор-аналитик Gartner Уилл Соммер предупреждает руководителей продуктов: не стоит путать обесценивание базовых вычислений с доступностью сложных логических рассуждений. Вычислительные мощности для продвинутого ИИ останутся в дефиците.

Перспектива

В будущем ценность будет концентрироваться вокруг платформ, способных грамотно распределять рабочие нагрузки (orchestration).

Компании больше не смогут использовать одну гигантскую модель для всех задач. Рутинные и высокочастотные операции придется направлять в небольшие, специализированные модели (SLM), которые справляются с профильными задачами эффективнее и дешевле. Дорогостоящий вывод передовых моделей с триллионами параметров будет строго лимитирован и зарезервирован исключительно для сложных задач с высокой маржинальностью. Те, кто сегодня пытается скрыть неэффективность своей ИИ-архитектуры за счет временно дешевеющих токенов, завтра столкнутся с невозможностью масштабировать свои продукты.

Прогноз Gartner: стоимость вывода больших языковых моделей снизится на 90% к 2030 году

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Обучение ИИ принципам вместо правил: новый подход к выравниванию моделей

Безопасность ИИ-агентов: подход к управлению Codex в корпоративной среде

Как устроена защита приватности в ChatGPT: фильтрация данных и контроль пользователей

Гайды по теме