Vision-Language Model
Определение
Vision-Language Model — мультимодальная модель, способная обрабатывать и понимать как изображения, так и текст, отвечая на вопросы о визуальном контенте.
Простое объяснение
Vision-Language Model — как эксперт, который может и смотреть на картину, и обсуждать её. Он видит изображение и отвечает на вопросы о нём на человеческом языке.
Подробнее
Связанные термины
Midjourney
Midjourney — сервис генерации изображений по текстовому описанию, известный высоким художественным качеством и стилизацией.
GPT
GPT (Generative Pre-trained Transformer) — семейство языковых моделей OpenAI, основанных на архитектуре Transformer, ставших стандартом в генеративном AI.
Prompt Engineering
Промпт-инжиниринг — искусство и наука составления эффективных запросов (промптов) к AI-моделям для получения качественных результатов.
Фундаментальная модель
Фундаментальная модель — большая AI-модель общего назначения, обученная на огромных данных и адаптируемая для множества задач.
