Google DeepMind представила экспериментальную открытую модель DiffusionGemma, а компания NVIDIA сразу же оптимизировала ее для работы на своих устройствах — от видеокарт GeForce RTX до рабочих станций DGX Spark. Главное нововведение заключается в том, что модель генерирует текст не по одному слову, а целыми блоками параллельно. Это открывает новые возможности для запуска быстрых локальных систем с минимальной задержкой.
Почти все современные большие языковые модели (LLM) работают по принципу авторегрессии. Это означает, что они предсказывают каждый следующий токен на основе всех предыдущих. Именно этот последовательный процесс создает привычный нам эффект «печатания» текста на экране. Однако у такого подхода есть существенный недостаток: генерация упирается в пропускную способность памяти (memory-bound). Вычислительные блоки простаивают, ожидая загрузки данных.
DiffusionGemma предлагает совершенно иной путь. Модель адаптирует для работы с текстом диффузионный подход, который ранее совершил революцию в генерации изображений. Вместо последовательного предсказания, система начинает с шума и восстанавливает весь блок текста целиком за несколько шагов. За один шаг модель способна обработать до 256 токенов параллельно.
Технически DiffusionGemma построена на базе архитектуры Gemma 4. Это модель типа «смесь экспертов» (MoE) с общим объемом в 26 миллиардов параметров. При этом во время каждого шага генерации активируется лишь 3,8 миллиарда параметров, что делает ее достаточно легкой для локального запуска.
NVIDIA Confidential Computing to Help Expand Apple’s Private Cloud Compute
Переход от последовательной генерации к параллельной меняет математику процесса. Задача перестает быть ограниченной памятью и становится ограниченной вычислениями (compute-bound). Это именно то, для чего созданы современные графические процессоры (GPU). Тензорные ядра NVIDIA эффективно справляются с плотными параллельными вычислениями, обеспечивая впечатляющие результаты. На одном ускорителе H100 модель выдает около 1000 токенов в секунду, а на локальной станции DGX Spark — 150 токенов в секунду. В среднем это в четыре раза быстрее, чем работа сопоставимой авторегрессионной модели в однопользовательском режиме.
Для индустрии это означает смещение фокуса в сторону локальных автономных агентов и интерактивных помощников. Задачи, критичные к скорости отклика, теперь можно решать без обращения к облачным серверам. Открытая лицензия Apache 2.0 и поддержка популярных фреймворков, таких как Hugging Face Transformers и vLLM, обеспечивают низкий порог входа для исследователей и разработчиков.
Пока рано судить, сможет ли диффузионный подход полностью вытеснить авторегрессию в текстовых задачах. Однако очевидно, что для сценариев, где важна скорость реакции и независимость от интернета, параллельная генерация текста становится крайне перспективным направлением. Время покажет, как быстро эта технология адаптируется в потребительских продуктах.