Vision-Language Model
Определение
Vision-Language Model — мультимодальная модель, способная обрабатывать и понимать как изображения, так и текст, отвечая на вопросы о визуальном контенте.
Простое объяснение
Vision-Language Model — как эксперт, который может и смотреть на картину, и обсуждать её. Он видит изображение и отвечает на вопросы о нём на человеческом языке.
Подробнее
Связанные термины
LLM
Большая языковая модель (LLM) — нейронная сеть с миллиардами параметров, обученная на огромных текстовых корпусах для понимания и генерации естественного языка.
Generative AI
Генеративный AI — системы искусственного интеллекта, способные создавать новый контент: тексты, изображения, музыку, видео, код.
LLaMA
LLaMA (Large Language Model Meta AI) — семейство открытых языковых моделей от Meta, ставшее основой для множества производных моделей.
GAN
Generative Adversarial Network — архитектура из двух конкурирующих нейросетей: генератора, создающего данные, и дискриминатора, отличающего реальные данные от сгенерированных.
