Суть события
Компания NVIDIA анонсировала выпуск нового семейства мультимодальных моделей для создания эмбеддингов — Nemotron ColEmbed V2. В линейку вошли три модели разного размера: 3 миллиарда, 4 миллиарда и 8 миллиардов параметров. Главная особенность этого релиза — использование архитектуры позднего взаимодействия (late interaction), аналогичной ColBERT, но адаптированной для работы не только с текстом, но и с изображениями.
На данный момент старшая модель (8B) заняла первое место в бенчмарке ViDoRe V3, который оценивает качество поиска по визуально насыщенным документам. Это важный шаг для корпоративных систем, где поиск информации часто требует понимания не только текста, но и таблиц, графиков и инфографики.
Контекст
Традиционные поисковые системы долгое время полагались на текстовые индексы. С приходом нейросетей стандартной практикой стало использование плотных векторных представлений (dense embeddings), где весь документ (текст или картинка) сжимается в один вектор. Это эффективно с точки зрения хранения и скорости, но часто приводит к потере деталей, особенно в сложных документах.
Альтернативный подход — мультивекторное представление. Вместо одного вектора для всего документа, модель создает векторы для каждого токена (части слова или участка изображения). Это позволяет сравнивать запрос и документ более детально, сопоставляя конкретные элементы друг с другом. NVIDIA развивает именно это направление, утверждая, что для задач высокой точности (например, в RAG-системах) такой подход оправдан, несмотря на большие затраты памяти.
Технические детали
В основе новых моделей лежит модифицированная архитектура трансформеров.
- Архитектура: Модели используют двунаправленное внимание (bi-directional attention), что позволяет им видеть весь контекст сразу, в отличие от стандартных декодеров LLM, которые читают слева направо. Механизм позднего взаимодействия сохраняет эмбеддинги для всех токенов документа.
- Оценка схожести: Используется оператор MaxSim. Каждый токен запроса сравнивается со всеми токенами документа, выбирается максимальное совпадение, и эти значения суммируются. Это позволяет находить релевантные фрагменты даже внутри больших страниц.
- Обучение: Модели обучались в два этапа. Сначала на текстовых парах (вопрос-ответ), затем на парах «текст-изображение» с использованием контрастивного обучения и майнинга сложных негативных примеров (hard negative mining).
- Результаты: В бенчмарке ViDoRe V3 модель 8B набрала 63.42 балла (NDCG@10), опередив конкурентов. Даже младшая модель 3B показывает результаты лучше, чем предыдущие версии.
Анализ
Выпуск Nemotron ColEmbed V2 подчеркивает важный тренд в индустрии поиска: переход от «быстрого и дешевого» поиска к «точному и глубокому». Одновекторные модели (как представленная NVIDIA ранее 1B модель) хороши для первичного отсева, но они часто ошибаются в деталях.
Мультивекторный подход решает проблему «сжатия смысла», когда нюансы теряются при конвертации целой страницы текста с графиками в один набор чисел. Однако за точность приходится платить: хранение индексов для таких моделей требует значительно больше места на диске и в оперативной памяти, так как нужно хранить векторы для каждого токена, а не один вектор на документ.
Перспектива
Мы увидим разделение рынка поисковых решений на два лагеря. Для простых задач и огромных объемов данных останутся классические одновекторные модели. Для сложных корпоративных систем RAG (Retrieval-Augmented Generation), где цена ошибки высока (например, в медицине, юриспруденции или технической документации), стандартом станут модели позднего взаимодействия, подобные Nemotron ColEmbed.
Следующим шагом станет оптимизация хранения этих огромных индексов и ускорение вычислений MaxSim, чтобы сделать технологию доступной не только для крупных корпораций с мощными серверами, но и для более широкого круга разработчиков.