NVIDIA présente NeMo Retriever — recherche agentique pour des données d'entreprise complexes
NVIDIA a présenté un nouveau pipeline pour NeMo Retriever qui transforme la recherche en un processus agentique : le modèle planifie lui-même les étapes…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
NVIDIA a présenté un nouveau pipeline agentic pour NeMo Retriever — un système de recherche qui ne se limite pas à la comparaison de similarité sémantique. Au lieu d'une seule requête, il lance un cycle de recherche, d'évaluation des résultats intermédiaires et d'affinage de la stratégie, ce qui a aidé la solution à occuper la première place dans le classement ViDoRe v3 et la deuxième place dans BRIGHT.
Pourquoi une seule recherche ne suffit pas
La retrieval dense classique fonctionne bien lorsqu'il suffit de trouver des documents sémantiquement similaires à la requête. Mais dans les scénarios d'entreprise, cela n'est souvent pas suffisant : les documents peuvent être visuellement complexes, les requêtes peuvent être composées et les réponses peuvent être dispersées sur plusieurs sources. Dans ces tâches, vous avez besoin non seulement de la correspondance d'embeddings, mais de la capacité à décomposer une question en parties, à tester des hypothèses et à changer plusieurs fois la direction de la recherche.
NVIDIA décrit cela comme une lacune entre deux types de systèmes. Les retrievers peuvent rapidement analyser d'énormes volumes de données, mais raisonnent à peine. Les grands modèles de langage peuvent planifier et faire des inférences logiques, mais ne peuvent pas immédiatement traiter des millions de documents.
La retrieval agentic devrait combler cette lacune en combinant les deux approches en un seul cycle.
Comment fonctionne le cycle
Le pipeline est construit sur l'architecture ReACT. L'agent ne reçoit pas une tâche sous la forme « une requête — un résultat », mais agit étape par étape : réfléchit, appelle l'outil retrieve(query, top_k), analyse ce qui a été trouvé et décide quoi faire ensuite. La réponse finale est assemblée via un outil separate final_results qui retourne une liste des documents les plus pertinents. Selon l'équipe, plusieurs modèles utiles ont émergé naturellement au cours du processus :
- génération de requêtes plus précises à mesure que de nouveaux faits apparaissent ;
- reformulation constante jusqu'à ce que le système trouve un signal utile ;
- décomposition d'une question complexe en plusieurs sous-tâches simples ;
- réclassement des documents trouvés avant la sélection finale.
Si l'agent atteint la limite d'étapes ou la longueur du contexte, le pipeline ne s'interrompt pas aveuglément. La Reciprocal Rank Fusion est utilisée comme protection : les documents reçoivent un score final basé sur leurs positions dans différentes tentatives de recherche, et le système retourne toujours un ensemble significatif de résultats.
Où le pipeline a remporté
Le résultat principal — non seulement une place au classement, mais l'universalité. Le même pipeline, sans changer l'architecture de base, a occupé la première place dans ViDoRe v3 avec NDCG@10 69,22 et la deuxième place dans BRIGHT avec NDCG@10 50,90. La première métrique est importante pour les documents d'entreprise visuellement riches et divers, la seconde pour les tâches nécessitant un raisonnement multi-étapes.
Les auteurs ont comparé séparément leur approche avec des solutions plus spécialisées. Par exemple, INF-X-Retriever domine dans BRIGHT avec un résultat de 63,40, mais sur ViDoRe v3 dans la même configuration avec nemotron-colembed-vl-8b-v2 il a montré 62,31 — même inférieur à la retrieval dense régulière avec le même modèle d'embedding à 64,36. NVIDIA utilise cette comparaison comme argument en faveur d'une approche généralisable : le cycle agentic se transfère mieux entre différents types de tâches que les pipelines adaptés à un seul benchmark.
Il est également intéressant que l'équipe ait restructuré l'infrastructure pour la vitesse. Initialement, le retriever a été déployé en tant que serveur MCP, ce qui est logique pour l'accès des LLM aux outils externes. Mais en pratique, cela a ajouté des appels réseau supplémentaires, un processus distinct, un risque d'erreurs de configuration silencieuses et des défaillances sous charge.
En conséquence, le schéma MCP a été remplacé par un retriever singleton thread-safe à l'intérieur du processus : le modèle et les embeddings sont chargés une seule fois, l'accès est synchronisé via un lock, et l'interface retrieve() reste la même. Cela a éliminé une classe entière de problèmes opérationnels et accéléré les expériences.
Le coût de la recherche autonome
NVIDIA déclare directement que cette qualité a un prix. La retrieval agentic est notablement plus lente et plus chère que la retrieval dense régulière. Sur ViDoRe v3, une requête a pris en moyenne 136,3 secondes, a nécessité environ 760 mille tokens d'entrée et 6,3 mille tokens de sortie, et l'agent a fait en moyenne 9,2 appels de recherche.
Pour les tâches en temps réel, c'est un profil lourd, surtout lorsqu'il s'agit de charges massives. L'équipe a également comparé les modèles fermés et ouverts. Sur ViDoRe v3, la combinaison avec Opus 4.
5 s'est avérée être la meilleure, mais le passage à gpt-oss-120b open-weight n'a entraîné qu'une dégradation modérée de la qualité — de 69,22 à 66,38. Sur BRIGHT, l'écart était plus important, indiquant la dépendance des tâches de raisonnement complexe vis-à-vis de modèles frontier plus puissants. La prochaine étape de NVIDIA est de tenter de transférer ces modèles agentic à des modèles ouverts spécialisés plus compacts pour réduire le coût et la latence sans perte significative de qualité.
Ce que cela signifie
La recherche dans les données d'entreprise s'éloigne rapidement du modèle « entrez une requête — obtenez des documents similaires ». NVIDIA montre que le niveau suivant est un agent qui peut chercher de manière itérative, changer de tactique et combiner le raisonnement avec la retrieval. Bien que cette approche soit actuellement chère et lente, pour les scénarios complexes à enjeux élevés, elle ressemble déjà à une architecture fonctionnelle, pas à une expérience de laboratoire.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.