Суть
К 2030 году затраты провайдеров генеративного искусственного интеллекта на выполнение вывода (inference) для моделей с одним триллионом параметров снизятся более чем на 90% по сравнению с 2025 годом. Такой прогноз представила исследовательская компания Gartner. Это означает, что базовая стоимость обработки данных большими языковыми моделями (LLM) стремится к нулю, однако это не приведет к автоматическому и пропорциональному снижению расходов для конечных корпоративных клиентов.
Контекст
Вывод или инференс — это процесс, при котором уже обученная нейросеть обрабатывает запрос пользователя и генерирует ответ. Стоимость этого процесса измеряется в токенах. В методологии Gartner один токен приравнивается к 3.5 байтам данных или примерно к четырем символам текста.
Исторически запуск передовых моделей требовал колоссальных вычислительных мощностей. Однако технологии развиваются. По оценкам аналитиков, к концу десятилетия модели станут в 100 раз более экономичными в эксплуатации, чем их ранние аналоги сопоставимого размера, выпущенные в 2022 году.
Детали
Снижение стоимости токенов не происходит само по себе. Gartner выделяет несколько ключевых факторов, которые обеспечат эту динамику:
- Повышение эффективности полупроводников и серверной инфраструктуры.
- Инновации в архитектуре самих моделей.
- Более высокая утилизация (эффективность использования) чипов.
- Массовое внедрение специализированных процессоров, созданных исключительно для вывода, а не для обучения.
- Перенос части вычислений на конечные устройства (edge devices), такие как смартфоны и ПК.
Исследователи разделяют прогнозы на два сценария. Первый — «передовой» (frontier), основанный на использовании самых современных чипов. Второй — «смешанный» (legacy blend), предполагающий использование парка доступного на рынке оборудования. Во втором случае затраты остаются существенно выше из-за меньшей вычислительной мощности старых процессоров.
Анализ
Главный вывод отчета кроется в парадоксе: несмотря на удешевление единицы вычислений, общие расходы на ИИ-инфраструктуру будут расти. Удешевление базовых токенов не приведет к полной демократизации так называемого передового интеллекта (frontier intelligence).
Причина заключается в изменении характера использования ИИ. На смену обычным чат-ботам приходят агентные модели (agentic models). Такие системы способны самостоятельно планировать действия, исправлять ошибки и выполнять многоступенчатые задачи. Агентный подход требует от 5 до 30 раз больше токенов на одну задачу по сравнению со стандартным запросом к чат-боту.
Спрос на токены будет расти быстрее, чем падать их стоимость. Директор-аналитик Gartner Уилл Соммер предупреждает руководителей продуктов: не стоит путать обесценивание базовых вычислений с доступностью сложных логических рассуждений. Вычислительные мощности для продвинутого ИИ останутся в дефиците.
Перспектива
В будущем ценность будет концентрироваться вокруг платформ, способных грамотно распределять рабочие нагрузки (orchestration).
Компании больше не смогут использовать одну гигантскую модель для всех задач. Рутинные и высокочастотные операции придется направлять в небольшие, специализированные модели (SLM), которые справляются с профильными задачами эффективнее и дешевле. Дорогостоящий вывод передовых моделей с триллионами параметров будет строго лимитирован и зарезервирован исключительно для сложных задач с высокой маржинальностью. Те, кто сегодня пытается скрыть неэффективность своей ИИ-архитектуры за счет временно дешевеющих токенов, завтра столкнутся с невозможностью масштабировать свои продукты.