Современные системы поиска информации столкнулись с фундаментальным ограничением. Традиционный плотный поиск (dense retrieval), основанный на семантическом сходстве, отлично находит похожие тексты, но пасует перед задачами, требующими логического вывода. С другой стороны, большие языковые модели (LLM) прекрасно рассуждают, но физически не могут обработать миллионы документов за один раз.
Команда разработчиков NeMo Retriever предложила элегантное решение этой проблемы, представив генерализуемый конвейер агентного поиска. Этот подход позволил им занять первое место в рейтинге ViDoRe v3 (поиск по визуально сложным документам) и второе место в BRIGHT (поиск, требующий глубоких рассуждений). Суть инновации заключается в создании активного цикла взаимодействия между языковой моделью и поисковым механизмом.
Вместо того чтобы пытаться найти ответ за один запрос, система использует архитектуру ReACT. Агент получает инструменты для планирования действий, извлечения данных и формирования финального ответа. Процесс становится итеративным: модель делает первоначальный запрос, анализирует полученные фрагменты, понимает, чего не хватает, и формулирует новые, более точные запросы. Система способна разбивать одну сложную задачу на несколько простых подзадач.
Интересным аспектом разработки стала инженерная оптимизация. Изначально для связи агента и поисковика использовался сервер Model Context Protocol (MCP). Однако на практике сетевые задержки и накладные расходы на сериализацию данных делали эксперименты слишком медленными. Разработчики заменили серверную архитектуру на потокобезопасный одиночный объект (singleton), работающий в том же процессе. Это позволило множеству агентов одновременно обращаться к векторной базе данных в памяти видеокарты (GPU) без сетевых задержек.
Анализ результатов показывает важность обобщающей способности (generalizability). Многие существующие решения сильно оптимизированы под конкретные наборы данных. Например, лидер рейтинга BRIGHT показал результаты хуже базового семантического поиска при тестировании на визуальных документах ViDoRe. Агентный же подход адаптирует свою стратегию на лету, не требуя изменения архитектуры под новую предметную область.
Эксперименты с различными моделями выявили важную закономерность. Использование передовых проприетарных моделей (таких как Claude Opus) дает значительное преимущество в задачах со сложной логикой. Однако агентный подход способен частично компенсировать недостатки слабых моделей внедрения (embedding models), так как агент упорством и перефразированием запросов все же находит нужную информацию.
За автономность приходится платить. Агентный поиск требует значительных вычислительных ресурсов. В среднем на обработку одного запроса уходит около 136 секунд и сотни тысяч токенов. Это делает технологию неприменимой для обычного пользовательского поиска, но весьма перспективной для критически важных корпоративных задач, где точность важнее скорости.
Следующим логичным шагом для индустрии станет дистилляция. Исследователи планируют перенести паттерны рассуждений больших моделей в компактные открытые аналоги. Если им удастся обучить небольшие модели эффективно управлять циклом поиска, мы получим инструменты высокой точности при значительно меньших затратах.