Vision-Language Model
Определение
Vision-Language Model — мультимодальная модель, способная обрабатывать и понимать как изображения, так и текст, отвечая на вопросы о визуальном контенте.
Простое объяснение
Vision-Language Model — как эксперт, который может и смотреть на картину, и обсуждать её. Он видит изображение и отвечает на вопросы о нём на человеческом языке.
Подробнее
Связанные термины
Mistral
Mistral AI — французская компания, создающая высокоэффективные open-source языковые модели, конкурирующие с закрытыми решениями.
Запрос
Запрос (промпт) — текстовая инструкция или вопрос, отправляемый пользователем языковой модели для получения ответа.
RAG
RAG (Retrieval-Augmented Generation) — архитектура, дополняющая LLM актуальной информацией из внешних источников через поиск перед генерацией ответа.
Фундаментальная модель
Фундаментальная модель — большая AI-модель общего назначения, обученная на огромных данных и адаптируемая для множества задач.
