Google анонсировала Gemini Omni: диалоговое редактирование и генерация видео
Google представила новую мультимодальную модель Gemini Omni Flash, которая позволяет создавать и редактировать видео через диалог, комбинируя текст, изображения и аудио.
Google представила новую мультимодальную модель Gemini Omni Flash, которая позволяет создавать и редактировать видео через диалог, комбинируя текст, изображения и аудио.
3 мин

Компания Google представила Gemini Omni — новое семейство искусственного интеллекта, объединяющее способность модели к рассуждению с генерацией контента. Первой доступной версией стала Gemini Omni Flash. Главная особенность модели заключается в том, что она позволяет не просто генерировать видео с нуля, но и редактировать его с помощью обычного разговора на естественном языке.
Это важный шаг для индустрии. Долгое время генерация видео оставалась процессом в один конец: пользователь вводил текстовый запрос (prompt) и получал результат, который было сложно точечно исправить. Omni предлагает итеративный подход, где каждое новое указание дополняет предыдущее, сохраняя консистентность сцены.
В прошлом году Google уже интегрировала возможности генерации и редактирования изображений в свои продукты. Однако архитектура семейства Gemini с самого начала разрабатывалась как нативно мультимодальная (natively multimodal). Это означает, что модель обучалась воспринимать текст, звук, изображения и видео не как разрозненные форматы, требующие перевода в текст, а как единый поток данных.

The image shows a colorful abstract design with the Google I/O 2026 logo.
Теперь этот фундамент позволил компании перейти к более сложной задаче — работе с видео. Видео требует понимания времени, движения и физики пространства, что делает его генерацию одной из самых ресурсоемких задач в сфере машинного обучения.
Gemini Omni Flash может принимать на вход любую комбинацию данных. Вы можете загрузить видео, добавить к нему изображение желаемого стиля, прикрепить аудиофайл с музыкой и текстом описать, что должно произойти. Модель объединит все эти элементы в цельный результат.
Технически модель демонстрирует улучшенное понимание физики реального мира. Она учитывает гравитацию, кинетическую энергию и гидродинамику. Например, если в кадре катится шар или разливается вода, их поведение будет выглядеть более реалистично.
Редактирование происходит в формате диалога. Пользователь может попросить изменить освещение, заменить материал объекта (например, сделать скульптуру из мыльных пузырей) или изменить угол обзора камеры. При этом персонажи и окружение остаются неизменными, если об обратном не сказано в запросе.
Для защиты от злоупотреблений Google встроила технологию SynthID. Все сгенерированные видео помечаются невидимым цифровым водяным знаком. Также анонсирована функция цифровых аватаров, позволяющая пользователям создавать видео со своим лицом и голосом, хотя редактирование чужой речи пока ограничено из соображений безопасности.

Изображение из источника
Появление Gemini Omni меняет парадигму создания контента. Интерфейсом для сложного видеомонтажа теперь становится естественный язык. Пользователю больше не нужно осваивать профессиональные программы для композитинга или цветокоррекции — достаточно точно описать желаемый результат.
Стратегически Google делает сильный ход, интегрируя Omni Flash не только в платные подписки (Google AI Plus, Pro и Ultra), но и предоставляя бесплатный доступ пользователям YouTube Shorts и приложения YouTube Create. Это обеспечивает компании огромную базу для тестирования и массовую дистрибуцию, с которой сложно конкурировать независимым стартапам в сфере генеративного видео.
В ближайшие недели Google планирует открыть доступ к модели разработчикам и корпоративным клиентам через программный интерфейс (API). Это приведет к появлению множества сторонних приложений, использующих возможности Omni.
В будущем мы, вероятно, увидим поддержку дополнительных форматов на выходе, таких как прямая генерация сложных аудиоэффектов и высококачественных изображений в рамках одной сессии. Индустрия движется к созданию универсальных творческих сред, где грань между съемкой, монтажом и генерацией окончательно сотрется. Время покажет, насколько точно модель сможет выполнять сложные режиссерские задачи на длинных дистанциях, но текущий подход к многошаговому редактированию выглядит многообещающе.
Google переводит генерацию видео на новый уровень, предлагая инструменты для многошагового диалогового редактирования, где модель понимает физику объектов и сохраняет контекст сцены.
Главная ценность новой модели заключается не в генерации видео с нуля, а в способности использовать существующие материалы (референсы движения, аудио ритмы) для точного контроля над результатом, что превращает ИИ из генератора случайных картинок в полноценный инструмент режиссуры.