Hugging Face Blog→ оригинал

NVIDIA présente NeMo Retriever — recherche agentique pour des données d'entreprise complexes

NVIDIA a présenté un nouveau pipeline pour NeMo Retriever qui transforme la recherche en un processus agentique : le modèle planifie lui-même les étapes, reform

NVIDIA présente NeMo Retriever — recherche agentique pour des données d'entreprise complexes
Источник: Hugging Face Blog. Коллаж: Hamidun News.

Команда NVIDIA представила новый agentic-пайплайн для NeMo Retriever — системы поиска, которая не ограничивается сравнением семантической близости. Вместо одного запроса она запускает цикл из поиска, оценки промежуточных результатов и уточнения стратегии, что помогло решению занять первое место в рейтинге ViDoRe v3 и второе — в BRIGHT.

Почему одного поиска мало

Классический dense retrieval хорошо работает, когда достаточно найти документы, похожие на запрос по смыслу. Но в корпоративных сценариях этого часто мало: документы бывают визуально сложными, запросы — составными, а ответы — разбросанными по нескольким источникам. В таких задачах нужно не просто совпадение по эмбеддингам, а способность разложить вопрос на части, проверить гипотезы и несколько раз поменять направление поиска. В NVIDIA описывают это как разрыв между двумя типами систем. Ретриверы умеют быстро просматривать огромные массивы данных, но почти не рассуждают. Большие языковые модели умеют планировать и делать логические выводы, но не способны сразу обработать миллионы документов. Agentic retrieval должен закрыть этот разрыв, объединив оба подхода в одном цикле.

Как работает цикл В основе пайплайна лежит архитектура ReACT.

Агент не получает задачу в формате «один запрос — один результат», а действует по шагам: думает, вызывает инструмент retrieve(query, top_k), анализирует найденное и решает, что делать дальше. Финальный ответ собирается через отдельный инструмент final_results, который возвращает список наиболее релевантных документов. По словам команды, в процессе естественно проявились несколько полезных паттернов: генерация более точных запросов по мере появления новых фактов; постоянное перефразирование, пока система не находит полезный сигнал; разбиение сложного вопроса на несколько простых подзадач; повторная сортировка найденных документов перед финальным выбором.

Если агент упирается в лимит шагов или длину контекста, пайплайн не обрывается вслепую. В качестве страховки используется Reciprocal Rank Fusion: документы получают итоговый балл на основе позиций в разных попытках поиска, и система всё равно выдаёт осмысленный набор результатов.

Где пайплайн выиграл Главный результат — не только место в лидерборде, но и универсальность.

Один и тот же пайплайн без смены базовой архитектуры получил первое место в ViDoRe v3 с NDCG@10 69,22 и второе место в BRIGHT с NDCG@10 50,90. Первая метрика важна для визуально насыщенных и разнообразных корпоративных документов, вторая — для задач, где нужно больше многошагового рассуждения. Авторы отдельно сравнили свой подход с более специализированными решениями.

Например, INF-X-Retriever лидирует в BRIGHT с результатом 63,40, но на ViDoRe v3 в той же конфигурации с nemotron-colembed-vl-8b-v2 он показал 62,31 — даже ниже, чем обычный dense retrieval на том же эмбеддинг-моделе с результатом 64,36. NVIDIA использует это сравнение как аргумент в пользу generalizable-подхода: агентный цикл лучше переносится между разными типами задач, чем пайплайны, заточенные под один бенчмарк. Интересно и то, что команда переработала инфраструктуру ради скорости.

Сначала ретривер был вынесен в MCP-сервер, что логично для доступа LLM к внешним инструментам. Но на практике это добавляло лишние сетевые вызовы, отдельный процесс, риск тихих конфигурационных ошибок и падений под нагрузкой. В итоге MCP-схему заменили на потокобезопасный singleton-ретривер внутри процесса: модель и эмбеддинги загружаются один раз, доступ синхронизируется через lock, а интерфейс retrieve() остаётся тем же.

Это убрало целый класс операционных проблем и ускорило эксперименты.

Цена автономного поиска NVIDIA прямо пишет, что у такого качества есть цена.

Agentic retrieval заметно медленнее и дороже обычного dense retrieval. На ViDoRe v3 один запрос в среднем занимал 136,3 секунды, требовал около 760 тысяч входных токенов и 6,3 тысячи выходных, а агент в среднем делал 9,2 обращения к поиску. Для задач в реальном времени это тяжёлый профиль, особенно если речь идёт о массовой нагрузке.

Команда также провела сравнение закрытых и открытых моделей. На ViDoRe v3 связка с Opus 4.5 оказалась лучшей, но переход на open-weight gpt-oss-120b дал лишь умеренное падение качества — с 69,22 до 66,38.

На BRIGHT разрыв оказался сильнее, что указывает на зависимость сложных reasoning-задач от более мощных frontier-моделей. Следующий шаг NVIDIA — попытаться перенести эти агентные паттерны в более компактные специализированные open-модели, чтобы снизить стоимость и задержку без сильной потери качества.

Что это значит

Поиск по корпоративным данным быстро уходит от схемы «ввёл запрос — получил похожие документы». NVIDIA показывает, что следующий уровень — это агент, который умеет искать итеративно, менять тактику и комбинировать рассуждение с retrieval. Пока такой подход дорогой и небыстрый, но для сложных high-stakes сценариев он уже выглядит как рабочая архитектура, а не лабораторный эксперимент.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…