CLIP

CLIP обучен на 400M пар изображение-текст из интернета с контрастивной целью: сближать эмбеддинги пары и отдалять несвязанные. Это создаёт общее пространство, где "фото кота" и картинка кота находятся рядом. CLIP используется для zero-shot классификации изображений, поиска картинок по тексту, guidance в генеративных моделях. Stable Diffusion использует CLIP text encoder. Открытые альтернативы: OpenCLIP, SigLIP. CLIP — фундамент современного мультимодального AI.

Определение

Простое объяснение

Подробнее

Связанные термины

Модель

Adapter

VAE

Глубокое обучение

DPO

Нейронная сеть