Цена точности: почему умные языковые модели снова становятся дороже
Долгое время развитие ИИ вело к снижению стоимости задач за счет эффективности рассуждений. Однако внедрение новых токенизаторов для повышения точности меняет экономику вычислений.

Наблюдается интересная смена парадигмы в экономике больших языковых моделей (LLM). До недавнего времени в индустрии действовало негласное правило: чем умнее становится модель, тем дешевле обходится конечное решение задачи. Теперь этот тренд разворачивается в обратную сторону из-за стремления разработчиков к абсолютной точности вычислений.
Давайте вспомним, как развивалась ситуация в последние годы. Когда алгоритм становится более продвинутым, он решает проблемы за меньшее количество шагов. Ему нужно меньше возвратов назад, меньше избыточных рассуждений и пространных объяснений. Отличным примером стал выпуск модели Claude Opus 4.5. Базовая стоимость миллиона токенов у этой версии была на 67% выше, чем у более простой модели Sonnet. Однако на практике Opus 4.5 использовал на 76% меньше токенов для достижения того же или даже лучшего результата.
В итоге задача, которая стоила один доллар на Sonnet, обходилась всего в 40 центов на более мощном Opus 4.5. Аналогичная тенденция прослеживалась у других разработчиков: системы становились умнее и тратили меньше вычислительных ресурсов на каждую конкретную задачу.
Ситуация кардинально изменилась с выходом версии Opus 4.7. Более умная модель внезапно стала значительно дороже в использовании. Причина кроется в базовом механизме работы нейросетей — новом токенизаторе. Токенизатор — это программное обеспечение, которое разбивает текст на фрагменты (токены), понятные компьютеру.

How tokenizers break text into pieces - showing unbelievable split into un, belie, vable
В новой версии разработчики решили дробить текст на гораздо более мелкие части. Возьмем, к примеру, слово «невероятный». Обычный алгоритм может воспринять его как один или два токена. Новый токенизатор разобьет его на логические составляющие: отрицание, базовый концепт веры и указание на возможность. Это помогает компьютеру глубже понять структурные связи.



