Google DeepMind представила два новых инструмента для разработчиков: модель генерации изображений Nano Banana 2 Lite и систему создания видео Gemini Omni Flash. Этот релиз демонстрирует важный сдвиг в стратегии компании — фокус смещается с создания универсальных тяжеловесных систем на разработку быстрых, экономичных и легко интегрируемых решений.
Создание генеративного медиаконтента на практике редко сводится к одному запросу. Это всегда процесс творческих итераций, требующий множества попыток и корректировок. В таких условиях скорость отклика и стоимость генерации становятся критическими факторами для разработчиков. Google отвечает на этот запрос, предлагая инструменты, которые можно легко связывать в единые цепочки для создания комплексных мультимедийных продуктов.
Первая новинка, Nano Banana 2 Lite, позиционируется как самая быстрая и экономичная модель в своей линейке. Она создана специально для высоконагруженных систем, где важны пропускная способность и низкая задержка.
a chart showing the model table comparing Nano Banana 2 Lite, Nano Banana 2 and Nano Banana Pro
Генерация одного изображения занимает около четырех секунд, а стоимость составляет всего 0,034 доллара за тысячу картинок. Это делает модель оптимальным выбором для быстрого прототипирования и создания визуальных черновиков. При этом разработчики отмечают, что, несмотря на приоритет скорости, модель сохраняет высокую точность следования подсказкам и корректно отображает текст на изображениях.
Второй продукт, Gemini Omni Flash, переносит возможности мультимодальной логики Gemini в сферу видео. Эта модель позволяет не только генерировать видеоролики, но и редактировать их с помощью естественного языка в формате диалога.
Стоимость использования Omni Flash составляет 0,10 доллара за секунду готового видео. Модель способна принимать на вход комбинации текста, изображений и видео, что позволяет сохранять контроль над сценой и обеспечивать логику повествования. Однако на данном этапе существуют ограничения: максимальная длина видео составляет 10 секунд, загрузка аудио пока не поддерживается, а сохранение согласованности персонажей при смене сцен требует доработки.
Главный потенциал этих обновлений раскрывается при их совместном использовании. Разработчики могут настроить процесс, при котором Nano Banana 2 Lite мгновенно создает базовое изображение, а Gemini Omni Flash затем анимирует его, превращая в качественный видеоролик.
a gif showing image generation and editing vs latency and price
Для демонстрации этого подхода Google выпустила несколько тестовых приложений. Например, инструмент для дизайна интерьеров позволяет загрузить фотографию комнаты, быстро сгенерировать различные варианты оформления с помощью первой модели, а затем превратить выбранный вариант в кинематографичный видеопролет с помощью второй.
Важным аспектом внедрения генеративных технологий остается безопасность и прозрачность. Обе новые модели работают на защищенной инфраструктуре Google и используют технологию водяных знаков SynthID. Это позволяет невидимо маркировать созданный искусственным интеллектом контент, что критически важно в условиях растущего объема синтетической информации в сети.
С точки зрения индустрии, этот релиз подчеркивает тенденцию к модульности в разработке искусственного интеллекта. Вместо того чтобы полагаться на одну огромную нейросеть для всех задач, инженеры получают набор специализированных инструментов. Это снижает порог входа для бизнеса и позволяет создавать более сложные интерактивные приложения.
В ближайшем будущем мы, вероятно, увидим расширение возможностей этих моделей, в первую очередь — увеличение длительности генерируемых видео и добавление поддержки звука. Успех подобных инструментов будет зависеть от того, насколько бесшовно разработчики смогут интегрировать их в свои продукты и насколько эффективно будут решаться текущие технические ограничения.