Google DeepMind представила четвертое поколение своего семейства открытых нейросетей — Gemma 4. Эти модели созданы на базе архитектуры и исследований, которые лежат в основе флагманской серии Gemini 3. Главная новость заключается не только в возросших метриках, но и в смене парадигмы распространения: компания впервые перевела свои передовые открытые модели на лицензию Apache 2.0.
Этот шаг имеет огромное значение для индустрии. Ранее Google использовала собственные лицензионные соглашения, которые накладывали определенные ограничения на коммерческое использование и модификацию. Переход на Apache 2.0 дает разработчикам полный контроль над данными и инфраструктурой, позволяя без юридических рисков интегрировать Gemma 4 в любые коммерческие продукты.
Семейство Gemma 4 включает четыре модели, адаптированные под разные задачи и оборудование. Старшие версии — это плотная (dense) модель на 31 миллиард параметров и модель на базе смеси экспертов (Mixture of Experts, MoE) на 26 миллиардов параметров. Младшие версии, E2B и E4B, оптимизированы для работы на конечных устройствах: смартфонах, планшетах и системах интернета вещей (IoT).
Технические характеристики моделей демонстрируют значительный прогресс в эффективности. Старшая модель на 31B уже заняла третье место среди открытых решений в независимом рейтинге Arena AI, опережая конкурентов, которые превосходят ее по размеру в десятки раз. Версия MoE на 26B во время генерации текста активирует лишь 3,8 миллиарда параметров, что обеспечивает высокую скорость работы (tokens-per-second) при минимальных задержках.
Особый акцент разработчики сделали на создании автономных систем. Gemma 4 получила нативную поддержку вызова функций (function-calling), структурированного вывода в формате JSON и системных инструкций. Это базовый набор, необходимый для создания ИИ-агентов, способных самостоятельно планировать действия и взаимодействовать со сторонними интерфейсами программирования приложений (API).
Мультимодальность также стала стандартом. Все четыре модели способны обрабатывать изображения и видео. Младшие версии (E2B и E4B) дополнительно получили возможность напрямую воспринимать аудио, что критически важно для создания голосовых ассистентов нового поколения, работающих локально на устройствах. Контекстное окно теперь составляет 128 тысяч токенов для мобильных версий и 256 тысяч — для серверных.
С точки зрения аппаратного обеспечения, Google проделала большую работу по оптимизации. Старшие модели в несжатом формате (bfloat16) помещаются в память одного графического ускорителя (GPU) NVIDIA H100 на 80 ГБ. Квантованные версии можно запускать на потребительских видеокартах. Младшие модели способны работать полностью офлайн на процессорах мобильных телефонов и платах вроде Raspberry Pi.
Релиз Gemma 4 под лицензией Apache 2.0 — это прямой вызов стратегии компании Meta с ее семейством Llama. Google ясно дает понять, что намерена стать главным поставщиком базовых технологий для сообщества разработчиков (Open Source). Предоставляя мощные инструменты без юридических барьеров, компания стремится сделать свою архитектуру индустриальным стандартом.
В ближайшем будущем мы, вероятно, увидим резкий рост числа локальных ИИ-приложений. Наличие компактных, но умных моделей, способных понимать аудио и видео без подключения к облаку, открывает путь к созданию по-настоящему приватных и быстрых персональных ассистентов на смартфонах и умной домашней электронике.