Multimodal AI
Определение
Мультимодальный AI — системы, способные обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео — одновременно.
Простое объяснение
Это AI, который понимает всё сразу: и текст, и картинки, и звук — как человек, который может читать, смотреть и слушать одновременно.
Подробнее
Примеры мультимодальных моделей:
- GPT-4o — текст, изображения, аудио
- Gemini — нативно мультимодальный
- Claude 3 — текст + изображения
- CLIP — связь текста и изображений
Тренд: переход от single-modal к универсальным моделям.
Связанные термины
Vision-Language Model
Vision-Language Model — мультимодальная модель, способная обрабатывать и понимать как изображения, так и текст, отвечая на вопросы о визуальном контенте.
Speech-to-Text
Speech-to-Text (STT) — технология автоматического распознавания речи и преобразования её в текст.
ControlNet
ControlNet — метод точного управления генерацией изображений через дополнительные условия: позы, края, глубину, скетчи.
Фундаментальная модель
Фундаментальная модель — большая AI-модель общего назначения, обученная на огромных данных и адаптируемая для множества задач.
