Что такое квадратичное масштабирование в LLM?

Квадратичное масштабирование — это проблема в больших языковых моделях, где при увеличении объема текста количество вычислений растет в геометрической прогрессии. Это происходит из-за механизма плотного внимания, когда каждое слово умножается на все остальные, что приводит к колоссальным вычислительным и энергетическим затратам.

Какую технологию использует модель SubQ для решения проблемы масштабирования?

Модель SubQ от стартапа Subquadratic использует динамическое разреженное внимание вместо традиционного плотного. Эта технология позволяет системе выбирать только наиболее важные связи между токенами, значительно сокращая количество необходимых вычислений.

Насколько велико контекстное окно у модели SubQ?

Контекстное окно модели SubQ достигает 12 миллионов токенов, что значительно превосходит показатели большинства современных лидеров рынка, у которых этот параметр редко превышает один миллион. Это позволяет обрабатывать огромные объемы информации за один раз.

Какие преимущества предлагает SubQ по сравнению с другими языковыми моделями?

SubQ работает значительно быстрее и требует меньше вычислительных ресурсов и энергии, чем аналоги. Независимые тесты показали, что она в 56 раз быстрее предыдущих методов разреженного внимания и демонстрирует высокую точность при работе с большими объемами данных, предлагая при этом существенную экономическую эффективность.

Есть ли какие-либо сомнения или ограничения у технологии Subquadratic?

Да, пока модель SubQ недоступна для широкого тестирования и предоставляется только ограниченному кругу корпоративных клиентов. Кроме того, для ее создания использовались веса открытой китайской модели Qwen, а не обучение с нуля, что вызывает некоторый скептицизм в индустрии.

Стартап Subquadratic заявляет о решении проблемы квадрати...

В прошлом месяце стартап Subquadratic из Майами вышел из скрытого режима с громким заявлением: разработчики утверждают, что решили фундаментальную математическую проблему, которая сдерживала развитие больших языковых моделей (LLM) на протяжении почти десятилетия. После первоначальной волны скептицизма компания начала публиковать результаты независимых тестирований своей новой технологии.

Суть инновации заключается в создании модели под названием SubQ. По заявлениям создателей, она работает быстрее, требует значительно меньше вычислительных ресурсов и энергии, чем любые аналоги на рынке. Главная особенность SubQ — способность обрабатывать до 12 раз больше текста одновременно по сравнению с большинством современных моделей, сохраняя при этом качество выполнения задач на уровне передовых решений от Google DeepMind, OpenAI и Anthropic.

Чтобы понять значимость этого шага, необходимо рассмотреть, как работают большинство современных LLM. Ключевым механизмом является нейронная сеть типа трансформер, использующая процесс плотного внимания (dense attention). Когда трансформер обрабатывает текст, он кодирует каждое слово или его часть в виде числа (токена). Для понимания общего контекста модель умножает каждое из этих чисел на все остальные числа в данном тексте.

Проблема заключается в том, что при увеличении объема текста количество вычислений растет в геометрической прогрессии. Удвоение количества слов приводит к четырехкратному увеличению числа операций. Это явление называется квадратичным расширением. Именно из-за него современные языковые модели требуют колоссальных вычислительных мощностей и энергозатрат.

Решение, которое предлагает Subquadratic, состоит в отказе от плотного внимания в пользу разреженного внимания (sparse attention). Вместо того чтобы умножать значение каждого токена на все остальные, система выбирает только наиболее важные связи. По словам технического директора компании Алекса Уидона, языковая модель динамически определяет, какие именно слова важны для понимания контекста в каждый конкретный момент времени.

Для подтверждения своих слов компания привлекла независимую исследовательскую фирму Appen. Результаты тестов оказались весьма примечательными. В базовом тесте на скорость SubQ оказалась в 56 раз быстрее моделей, использующих предыдущие методы разреженного внимания, такие как FlashAttention. В тесте на программирование LiveCodeBench модель набрала 89,7%, встав в один ряд с лучшими профильными моделями.

Особенно впечатляет работа с большими объемами данных. Контекстное окно SubQ достигает 12 миллионов токенов, тогда как у большинства современных лидеров рынка этот показатель не превышает одного миллиона. В тесте на поиск конкретной информации в огромном массиве данных (needle-in-a-haystack) модель показала точность 98% на объемах в 6 и 12 миллионов токенов.

Экономическая эффективность также выглядит многообещающе. Генеральный директор Джастин Дангел приводит пример: прогон модели Anthropic Opus 4.6 через специализированный тест RULER 128 обошелся бы примерно в 2600 долларов, в то время как использование SubQ для той же задачи стоило всего 8 долларов.

Тем не менее, в индустрии сохраняется здоровый скептицизм. Во-первых, модель пока недоступна для широкого тестирования — доступ к ней выдается ограниченному числу корпоративных клиентов. Во-вторых, выяснилось, что для создания SubQ компания не обучала модель с нуля, а использовала веса открытой китайской модели Qwen. Хотя это распространенная практика для ускорения разработки, такой подход несколько противоречит громким заявлениям о полном переосмыслении того, как работают языковые модели.

Пока рано делать окончательные выводы. Если независимые исследователи и широкая публика подтвердят заявленные характеристики при массовом использовании, подход Subquadratic действительно может стать началом нового этапа в развитии искусственного интеллекта, где эффективность вычислений выйдет на первый план.

Стартап Subquadratic заявляет о решении проблемы квадратичного масштабирования в языковых моделях

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Конец золотой лихорадки корпоративного ИИ: почему на первый план выходит инфраструктура исполнения

Разработка локального ИИ-агента: почему автономность уступает подходу с участием человека

Архитектура унифицированной памяти на x86: разбор мини-ПК GMKtec EVO-X2 для локальных нейросетей

Гайды по теме