Multimodal
Определение
Multimodal — способность AI-системы обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео.
Простое объяснение
Multimodal — как AI с несколькими органами чувств. Может видеть, слышать, читать — и понимать связи между всем этим.
Подробнее
Связанные термины
Hallucination
Галлюцинация AI — генерация языковой моделью информации, которая выглядит правдоподобно, но является фактически неверной или выдуманной.
Большая языковая модель
Нейросеть с миллиардами параметров, обученная на огромных текстовых данных для понимания и генерации текста.
Diffusion Models
Диффузионные модели — класс генеративных моделей, которые учатся создавать данные путём постепенного удаления шума из случайного входа.
Multimodal AI
Мультимодальный AI — системы, способные обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео — одновременно.
