Что такое DiffusionGemma и как она работает?

DiffusionGemma — это экспериментальная открытая модель от Google DeepMind, которая генерирует текст целыми блоками параллельно, используя диффузионный подход. Она начинает с шума и восстанавливает весь блок текста за несколько шагов, обрабатывая до 256 токенов одновременно.

В чем ключевое отличие DiffusionGemma от обычных больших языковых моделей (LLM)?

Основное отличие DiffusionGemma от авторегрессионных LLM в том, что она генерирует текст не последовательно, слово за словом, а параллельно, целыми блоками. Это меняет процесс с ограничения по памяти на ограничение по вычислениям, что значительно ускоряет работу на GPU.

Какие преимущества дает параллельная генерация текста для локального ИИ?

Параллельная генерация текста позволяет значительно увеличить скорость отклика и снизить задержку, делая локальные системы ИИ более быстрыми и эффективными. Это критично для автономных агентов и интерактивных помощников, которым не требуется обращение к облачным серверам.

Можно ли запустить DiffusionGemma на обычных видеокартах?

Да, NVIDIA оптимизировала DiffusionGemma для работы на своих устройствах, включая потребительские видеокарты GeForce RTX. Модель имеет архитектуру "смесь экспертов", где активируется лишь часть параметров, что делает её подходящей для локального запуска.

Насколько быстрее DiffusionGemma по сравнению с традиционными моделями?

DiffusionGemma может работать до четырех раз быстрее сопоставимых авторегрессионных моделей в однопользовательском режиме. Например, на ускорителе H100 она выдает около 1000 токенов в секунду, а на локальной станции DGX Spark — 150 токенов в секунду.

Параллельная генерация текста: NVIDIA ускоряет DiffusionG...

Google DeepMind представила экспериментальную открытую модель DiffusionGemma, а компания NVIDIA сразу же оптимизировала ее для работы на своих устройствах — от видеокарт GeForce RTX до рабочих станций DGX Spark. Главное нововведение заключается в том, что модель генерирует текст не по одному слову, а целыми блоками параллельно. Это открывает новые возможности для запуска быстрых локальных систем с минимальной задержкой.

Почти все современные большие языковые модели (LLM) работают по принципу авторегрессии. Это означает, что они предсказывают каждый следующий токен на основе всех предыдущих. Именно этот последовательный процесс создает привычный нам эффект «печатания» текста на экране. Однако у такого подхода есть существенный недостаток: генерация упирается в пропускную способность памяти (memory-bound). Вычислительные блоки простаивают, ожидая загрузки данных.

Изображение из источника

DiffusionGemma предлагает совершенно иной путь. Модель адаптирует для работы с текстом диффузионный подход, который ранее совершил революцию в генерации изображений. Вместо последовательного предсказания, система начинает с шума и восстанавливает весь блок текста целиком за несколько шагов. За один шаг модель способна обработать до 256 токенов параллельно.

Технически DiffusionGemma построена на базе архитектуры Gemma 4. Это модель типа «смесь экспертов» (MoE) с общим объемом в 26 миллиардов параметров. При этом во время каждого шага генерации активируется лишь 3,8 миллиарда параметров, что делает ее достаточно легкой для локального запуска.

NVIDIA Confidential Computing to Help Expand Apple’s Private Cloud Compute

Переход от последовательной генерации к параллельной меняет математику процесса. Задача перестает быть ограниченной памятью и становится ограниченной вычислениями (compute-bound). Это именно то, для чего созданы современные графические процессоры (GPU). Тензорные ядра NVIDIA эффективно справляются с плотными параллельными вычислениями, обеспечивая впечатляющие результаты. На одном ускорителе H100 модель выдает около 1000 токенов в секунду, а на локальной станции DGX Spark — 150 токенов в секунду. В среднем это в четыре раза быстрее, чем работа сопоставимой авторегрессионной модели в однопользовательском режиме.

Для индустрии это означает смещение фокуса в сторону локальных автономных агентов и интерактивных помощников. Задачи, критичные к скорости отклика, теперь можно решать без обращения к облачным серверам. Открытая лицензия Apache 2.0 и поддержка популярных фреймворков, таких как Hugging Face Transformers и vLLM, обеспечивают низкий порог входа для исследователей и разработчиков.

Пока рано судить, сможет ли диффузионный подход полностью вытеснить авторегрессию в текстовых задачах. Однако очевидно, что для сценариев, где важна скорость реакции и независимость от интернета, параллельная генерация текста становится крайне перспективным направлением. Время покажет, как быстро эта технология адаптируется в потребительских продуктах.