NVIDIA presenta NeMo Retriever — búsqueda agéntica para datos empresariales complejos
NVIDIA presentó un nuevo pipeline para NeMo Retriever que convierte la búsqueda en un proceso agéntico: el modelo planifica sus propios pasos, reformula consult

Команда NVIDIA представила новый agentic-пайплайн для NeMo Retriever — системы поиска, которая не ограничивается сравнением семантической близости. Вместо одного запроса она запускает цикл из поиска, оценки промежуточных результатов и уточнения стратегии, что помогло решению занять первое место в рейтинге ViDoRe v3 и второе — в BRIGHT.
Почему одного поиска мало
Классический dense retrieval хорошо работает, когда достаточно найти документы, похожие на запрос по смыслу. Но в корпоративных сценариях этого часто мало: документы бывают визуально сложными, запросы — составными, а ответы — разбросанными по нескольким источникам. В таких задачах нужно не просто совпадение по эмбеддингам, а способность разложить вопрос на части, проверить гипотезы и несколько раз поменять направление поиска. В NVIDIA описывают это как разрыв между двумя типами систем. Ретриверы умеют быстро просматривать огромные массивы данных, но почти не рассуждают. Большие языковые модели умеют планировать и делать логические выводы, но не способны сразу обработать миллионы документов. Agentic retrieval должен закрыть этот разрыв, объединив оба подхода в одном цикле.
Как работает цикл В основе пайплайна лежит архитектура ReACT.
Агент не получает задачу в формате «один запрос — один результат», а действует по шагам: думает, вызывает инструмент retrieve(query, top_k), анализирует найденное и решает, что делать дальше. Финальный ответ собирается через отдельный инструмент final_results, который возвращает список наиболее релевантных документов. По словам команды, в процессе естественно проявились несколько полезных паттернов: генерация более точных запросов по мере появления новых фактов; постоянное перефразирование, пока система не находит полезный сигнал; разбиение сложного вопроса на несколько простых подзадач; повторная сортировка найденных документов перед финальным выбором.
Если агент упирается в лимит шагов или длину контекста, пайплайн не обрывается вслепую. В качестве страховки используется Reciprocal Rank Fusion: документы получают итоговый балл на основе позиций в разных попытках поиска, и система всё равно выдаёт осмысленный набор результатов.
Где пайплайн выиграл Главный результат — не только место в лидерборде, но и универсальность.
Один и тот же пайплайн без смены базовой архитектуры получил первое место в ViDoRe v3 с NDCG@10 69,22 и второе место в BRIGHT с NDCG@10 50,90. Первая метрика важна для визуально насыщенных и разнообразных корпоративных документов, вторая — для задач, где нужно больше многошагового рассуждения. Авторы отдельно сравнили свой подход с более специализированными решениями.
Например, INF-X-Retriever лидирует в BRIGHT с результатом 63,40, но на ViDoRe v3 в той же конфигурации с nemotron-colembed-vl-8b-v2 он показал 62,31 — даже ниже, чем обычный dense retrieval на том же эмбеддинг-моделе с результатом 64,36. NVIDIA использует это сравнение как аргумент в пользу generalizable-подхода: агентный цикл лучше переносится между разными типами задач, чем пайплайны, заточенные под один бенчмарк. Интересно и то, что команда переработала инфраструктуру ради скорости.
Сначала ретривер был вынесен в MCP-сервер, что логично для доступа LLM к внешним инструментам. Но на практике это добавляло лишние сетевые вызовы, отдельный процесс, риск тихих конфигурационных ошибок и падений под нагрузкой. В итоге MCP-схему заменили на потокобезопасный singleton-ретривер внутри процесса: модель и эмбеддинги загружаются один раз, доступ синхронизируется через lock, а интерфейс retrieve() остаётся тем же.
Это убрало целый класс операционных проблем и ускорило эксперименты.
Цена автономного поиска NVIDIA прямо пишет, что у такого качества есть цена.
Agentic retrieval заметно медленнее и дороже обычного dense retrieval. На ViDoRe v3 один запрос в среднем занимал 136,3 секунды, требовал около 760 тысяч входных токенов и 6,3 тысячи выходных, а агент в среднем делал 9,2 обращения к поиску. Для задач в реальном времени это тяжёлый профиль, особенно если речь идёт о массовой нагрузке.
Команда также провела сравнение закрытых и открытых моделей. На ViDoRe v3 связка с Opus 4.5 оказалась лучшей, но переход на open-weight gpt-oss-120b дал лишь умеренное падение качества — с 69,22 до 66,38.
На BRIGHT разрыв оказался сильнее, что указывает на зависимость сложных reasoning-задач от более мощных frontier-моделей. Следующий шаг NVIDIA — попытаться перенести эти агентные паттерны в более компактные специализированные open-модели, чтобы снизить стоимость и задержку без сильной потери качества.
Что это значит
Поиск по корпоративным данным быстро уходит от схемы «ввёл запрос — получил похожие документы». NVIDIA показывает, что следующий уровень — это агент, который умеет искать итеративно, менять тактику и комбинировать рассуждение с retrieval. Пока такой подход дорогой и небыстрый, но для сложных high-stakes сценариев он уже выглядит как рабочая архитектура, а не лабораторный эксперимент.