Multimodal

Мультимодальные модели объединяют разные "модальности" в единое пространство представлений. GPT-4V, Claude 3, Gemini понимают изображения и текст. Sora генерирует видео. CLIP связывает изображения и текст. Мультимодальность приближает AI к человеческому восприятию: мы тоже обрабатываем мир через разные органы чувств одновременно. Challenges: alignment между модальностями, efficient training, grounding (связь текста с конкретными объектами на изображении).

Определение

Простое объяснение

Подробнее

Связанные термины

Context Window

Image-to-Image

Foundation Model

Token

Mistral

Midjourney