Прогноз Gartner: стоимость вывода больших языковых моделей снизится на 90% к 2030 году
Аналитики прогнозируют значительное удешевление вычислений для генеративного ИИ. Однако общие расходы бизнеса могут вырасти из-за перехода к ресурсоемким агентным системам.

Суть
К 2030 году затраты провайдеров генеративного искусственного интеллекта на выполнение вывода (inference) для моделей с одним триллионом параметров снизятся более чем на 90% по сравнению с 2025 годом. Такой прогноз представила исследовательская компания Gartner. Это означает, что базовая стоимость обработки данных большими языковыми моделями (LLM) стремится к нулю, однако это не приведет к автоматическому и пропорциональному снижению расходов для конечных корпоративных клиентов.
Контекст
Вывод или инференс — это процесс, при котором уже обученная нейросеть обрабатывает запрос пользователя и генерирует ответ. Стоимость этого процесса измеряется в токенах. В методологии Gartner один токен приравнивается к 3.5 байтам данных или примерно к четырем символам текста.
Исторически запуск передовых моделей требовал колоссальных вычислительных мощностей. Однако технологии развиваются. По оценкам аналитиков, к концу десятилетия модели станут в 100 раз более экономичными в эксплуатации, чем их ранние аналоги сопоставимого размера, выпущенные в 2022 году.
Детали
Снижение стоимости токенов не происходит само по себе. Gartner выделяет несколько ключевых факторов, которые обеспечат эту динамику:
- Повышение эффективности полупроводников и серверной инфраструктуры.
- Инновации в архитектуре самих моделей.
- Более высокая утилизация (эффективность использования) чипов.
- Массовое внедрение специализированных процессоров, созданных исключительно для вывода, а не для обучения.



