В прошлом месяце стартап Subquadratic из Майами вышел из скрытого режима с громким заявлением: разработчики утверждают, что решили фундаментальную математическую проблему, которая сдерживала развитие больших языковых моделей (LLM) на протяжении почти десятилетия. После первоначальной волны скептицизма компания начала публиковать результаты независимых тестирований своей новой технологии.
Суть инновации заключается в создании модели под названием SubQ. По заявлениям создателей, она работает быстрее, требует значительно меньше вычислительных ресурсов и энергии, чем любые аналоги на рынке. Главная особенность SubQ — способность обрабатывать до 12 раз больше текста одновременно по сравнению с большинством современных моделей, сохраняя при этом качество выполнения задач на уровне передовых решений от Google DeepMind, OpenAI и Anthropic.
Чтобы понять значимость этого шага, необходимо рассмотреть, как работают большинство современных LLM. Ключевым механизмом является нейронная сеть типа трансформер, использующая процесс плотного внимания (dense attention). Когда трансформер обрабатывает текст, он кодирует каждое слово или его часть в виде числа (токена). Для понимания общего контекста модель умножает каждое из этих чисел на все остальные числа в данном тексте.
Проблема заключается в том, что при увеличении объема текста количество вычислений растет в геометрической прогрессии. Удвоение количества слов приводит к четырехкратному увеличению числа операций. Это явление называется квадратичным расширением. Именно из-за него современные языковые модели требуют колоссальных вычислительных мощностей и энергозатрат.
Решение, которое предлагает Subquadratic, состоит в отказе от плотного внимания в пользу разреженного внимания (sparse attention). Вместо того чтобы умножать значение каждого токена на все остальные, система выбирает только наиболее важные связи. По словам технического директора компании Алекса Уидона, языковая модель динамически определяет, какие именно слова важны для понимания контекста в каждый конкретный момент времени.
Для подтверждения своих слов компания привлекла независимую исследовательскую фирму Appen. Результаты тестов оказались весьма примечательными. В базовом тесте на скорость SubQ оказалась в 56 раз быстрее моделей, использующих предыдущие методы разреженного внимания, такие как FlashAttention. В тесте на программирование LiveCodeBench модель набрала 89,7%, встав в один ряд с лучшими профильными моделями.
Особенно впечатляет работа с большими объемами данных. Контекстное окно SubQ достигает 12 миллионов токенов, тогда как у большинства современных лидеров рынка этот показатель не превышает одного миллиона. В тесте на поиск конкретной информации в огромном массиве данных (needle-in-a-haystack) модель показала точность 98% на объемах в 6 и 12 миллионов токенов.
Экономическая эффективность также выглядит многообещающе. Генеральный директор Джастин Дангел приводит пример: прогон модели Anthropic Opus 4.6 через специализированный тест RULER 128 обошелся бы примерно в 2600 долларов, в то время как использование SubQ для той же задачи стоило всего 8 долларов.
Тем не менее, в индустрии сохраняется здоровый скептицизм. Во-первых, модель пока недоступна для широкого тестирования — доступ к ней выдается ограниченному числу корпоративных клиентов. Во-вторых, выяснилось, что для создания SubQ компания не обучала модель с нуля, а использовала веса открытой китайской модели Qwen. Хотя это распространенная практика для ускорения разработки, такой подход несколько противоречит громким заявлениям о полном переосмыслении того, как работают языковые модели.
Пока рано делать окончательные выводы. Если независимые исследователи и широкая публика подтвердят заявленные характеристики при массовом использовании, подход Subquadratic действительно может стать началом нового этапа в развитии искусственного интеллекта, где эффективность вычислений выйдет на первый план.