Multimodal
Определение
Multimodal — способность AI-системы обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео.
Простое объяснение
Multimodal — как AI с несколькими органами чувств. Может видеть, слышать, читать — и понимать связи между всем этим.
Подробнее
Связанные термины
Image-to-Image
Image-to-Image (img2img) — генерация нового изображения на основе входного с учётом текстового промпта и степени изменения.
Context Window
Контекстное окно — максимальный объём текста (в токенах), который языковая модель может обработать за один раз, включая входной запрос и генерируемый ответ.
Text-to-Speech
Text-to-Speech (TTS) — технология преобразования текста в естественно звучащую речь с помощью нейронных сетей.
Speech-to-Text
Speech-to-Text (STT) — технология автоматического распознавания речи и преобразования её в текст.
