Google анонсировала Gemini Omni: диалоговое редактирование и генерация видео
Google представила новую мультимодальную модель Gemini Omni Flash, которая позволяет создавать и редактировать видео через диалог, комбинируя текст, изображения и аудио.

Суть
Компания Google представила Gemini Omni — новое семейство искусственного интеллекта, объединяющее способность модели к рассуждению с генерацией контента. Первой доступной версией стала Gemini Omni Flash. Главная особенность модели заключается в том, что она позволяет не просто генерировать видео с нуля, но и редактировать его с помощью обычного разговора на естественном языке.
Это важный шаг для индустрии. Долгое время генерация видео оставалась процессом в один конец: пользователь вводил текстовый запрос (prompt) и получал результат, который было сложно точечно исправить. Omni предлагает итеративный подход, где каждое новое указание дополняет предыдущее, сохраняя консистентность сцены.
Контекст
В прошлом году Google уже интегрировала возможности генерации и редактирования изображений в свои продукты. Однако архитектура семейства Gemini с самого начала разрабатывалась как нативно мультимодальная (natively multimodal). Это означает, что модель обучалась воспринимать текст, звук, изображения и видео не как разрозненные форматы, требующие перевода в текст, а как единый поток данных.

The image shows a colorful abstract design with the Google I/O 2026 logo.
Теперь этот фундамент позволил компании перейти к более сложной задаче — работе с видео. Видео требует понимания времени, движения и физики пространства, что делает его генерацию одной из самых ресурсоемких задач в сфере машинного обучения.
Детали
Gemini Omni Flash может принимать на вход любую комбинацию данных. Вы можете загрузить видео, добавить к нему изображение желаемого стиля, прикрепить аудиофайл с музыкой и текстом описать, что должно произойти. Модель объединит все эти элементы в цельный результат.







