NVIDIA presenta NeMo Retriever — búsqueda agéntica para datos empresariales complejos
NVIDIA presentó un nuevo pipeline para NeMo Retriever que convierte la búsqueda en un proceso agéntico: el modelo planifica sus propios pasos, reformula…
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
NVIDIA presentó un nuevo pipeline agentic para NeMo Retriever — un sistema de búsqueda que no se limita a la comparación de similaridad semántica. En lugar de una única consulta, inicia un ciclo de búsqueda, evaluación de resultados intermedios y refinamiento de estrategia, que ayudó a la solución a ocupar el primer lugar en la clasificación ViDoRe v3 y el segundo en BRIGHT.
Por qué una sola búsqueda no es suficiente
La retrieval densa clásica funciona bien cuando es suficiente encontrar documentos semánticamente similares a la consulta. Pero en escenarios empresariales, esto a menudo no es suficiente: los documentos pueden ser visualmente complejos, las consultas pueden ser compuestas y las respuestas pueden estar dispersas en múltiples fuentes. En tales tareas, necesita no solo coincidencia de embeddings, sino la capacidad de dividir una pregunta en partes, probar hipótesis y cambiar la dirección de búsqueda varias veces.
NVIDIA describe esto como una brecha entre dos tipos de sistemas. Los retrievers pueden escanear rápidamente enormes volúmenes de datos, pero apenas razonan. Los grandes modelos de lenguaje pueden planificar e hacer inferencias lógicas, pero no pueden procesar inmediatamente millones de documentos.
La retrieval agentic debería cerrar esta brecha al combinar ambos enfoques en un único ciclo.
Cómo funciona el ciclo
El pipeline se construye sobre la arquitectura ReACT. El agente no recibe una tarea como "una consulta — un resultado", sino que actúa paso a paso: piensa, llama a la herramienta retrieve(query, top_k), analiza lo encontrado y decide qué hacer a continuación. La respuesta final se ensambla mediante una herramienta separate final_results que devuelve una lista de los documentos más relevantes. Según el equipo, varios patrones útiles emergieron naturalmente durante el proceso:
- generación de consultas más precisas a medida que aparecen nuevos hechos;
- reformulación constante hasta que el sistema encuentra una señal útil;
- división de una pregunta compleja en varias subtareas simples;
- reordenamiento de los documentos encontrados antes de la selección final.
Si el agente alcanza el límite de pasos o la longitud del contexto, el pipeline no se interrumpe ciegamente. Se utiliza Reciprocal Rank Fusion como salvaguarda: los documentos reciben una puntuación final basada en sus posiciones en diferentes intentos de búsqueda, y el sistema sigue devolviendo un conjunto significativo de resultados.
Dónde ganó el pipeline
El resultado principal — no solo un lugar en la clasificación, sino universalidad. El mismo pipeline, sin cambiar la arquitectura base, ocupó el primer lugar en ViDoRe v3 con NDCG@10 69,22 y el segundo lugar en BRIGHT con NDCG@10 50,90. La primera métrica es importante para documentos empresariales visualmente ricos y diversos, la segunda para tareas que requieren razonamiento multi-paso.
Los autores compararon por separado su enfoque con soluciones más especializadas. Por ejemplo, INF-X-Retriever lidera en BRIGHT con un resultado de 63,40, pero en ViDoRe v3 en la misma configuración con nemotron-colembed-vl-8b-v2 mostró 62,31 — incluso menor que la retrieval densa regular con el mismo modelo de embedding en 64,36. NVIDIA utiliza esta comparación como argumento a favor de un enfoque generalizable: el ciclo agentic se transfiere mejor entre diferentes tipos de tareas que los pipelines adaptados a un único benchmark.
También es interesante que el equipo haya reestructurado la infraestructura por velocidad. Inicialmente, el retriever se implementó como un servidor MCP, lo cual es lógico para que los LLM accedan a herramientas externas. Pero en la práctica, esto añadió llamadas de red adicionales, un proceso separado, riesgo de errores de configuración silenciosos y fallos bajo carga.
Como resultado, el esquema MCP se reemplazó con un retriever singleton thread-safe dentro del proceso: el modelo e embeddings se cargan una sola vez, el acceso se sincroniza mediante un lock, y la interfaz retrieve() sigue siendo la misma. Esto eliminó una clase completa de problemas operacionales y aceleró los experimentos.
El costo de la búsqueda autónoma
NVIDIA afirma directamente que esta calidad tiene un precio. La retrieval agentic es notablemente más lenta y cara que la retrieval densa regular. En ViDoRe v3, una consulta tomó un promedio de 136,3 segundos, requirió aproximadamente 760 mil tokens de entrada y 6,3 mil tokens de salida, y el agente realizó un promedio de 9,2 llamadas de búsqueda.
Para tareas en tiempo real, este es un perfil pesado, especialmente cuando se trata de carga masiva. El equipo también comparó modelos cerrados y abiertos. En ViDoRe v3, la combinación con Opus 4.
5 resultó ser la mejor, pero cambiar a gpt-oss-120b open-weight resultó solo en degradación moderada de calidad — de 69,22 a 66,38. En BRIGHT, la brecha fue mayor, lo que indica dependencia de tareas complejas de razonamiento en modelos frontier más poderosos. El siguiente paso de NVIDIA es intentar transferir estos patrones agentic a modelos abiertos especializados más compactos para reducir costo y latencia sin pérdida significativa de calidad.
Qué significa esto
La búsqueda en datos empresariales se está moviendo rápidamente lejos del modelo "ingrese una consulta — obtenga documentos similares". NVIDIA muestra que el siguiente nivel es un agente que puede buscar iterativamente, cambiar tácticas y combinar razonamiento con retrieval. Aunque este enfoque es actualmente caro y lento, para escenarios complejos de alto riesgo ya parece una arquitectura funcional, no un experimento de laboratorio.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.