Урок 9 из 17•5 мин
Мультимодальность: не только текст
Цели урока
После прохождения этого урока вы сможете:
- 1Понять, что современный AI работает с разными типами данных
- 2Узнать о vision, audio, video возможностях
- 3Увидеть бизнес-применения мультимодальности
AI видит, слышит, создаёт
Современные LLM — это не только текст. Они могут работать с изображениями, аудио, видео и даже генерировать их.
| Модальность | Примеры использования | Лучшие инструменты 2026 |
|---|---|---|
| Vision (изображения) | Анализ скриншотов, чтение документов, описание фото | GPT-5.2, Claude Opus 4.5, Gemini 3 |
| Audio (голос) | Транскрипция встреч, синтез речи, клонирование голоса | ElevenLabs, Whisper, HeyGen |
| Video (видео) | Генерация видео из текста, анализ контента | Sora 2, Runway Gen-3, Gemini 3 |
| Music (музыка) | Создание песен, фоновой музыки, jingles | Suno, Udio |
| Images (генерация) | Создание изображений по описанию | Midjourney, DALL-E 3, Flux |
Интерактивный каталог инструментов
Выберите категорию, чтобы узнать больше о конкретных инструментах, их возможностях и ценах:
Бизнес-применения
- Автоматическая обработка документов — загрузите скан, получите структурированные данные
- Транскрипция и резюме встреч — запись Zoom → текст → ключевые решения
- Генерация маркетинговых материалов — описание → изображение для соцсетей
- Анализ конкурентов — скриншоты сайтов → сравнительный анализ
- Обучающие материалы — текст → озвучка → видео
2026: Год мультимодальности
Барьеры между модальностями стираются. Скоро "загрузи документ и задай вопрос голосом" станет нормой.
Начните с Vision — это самая зрелая мультимодальная возможность. Загрузите скриншот конкурента и попросите AI проанализировать.
Вопросы для размышления
- •Какие не-текстовые данные есть в вашем бизнесе (документы, фото, аудио)?
- •Как мультимодальный AI мог бы ускорить ваши процессы?
