NVIDIA apresenta o NeMo Retriever — busca agêntica para dados corporativos complexos
A NVIDIA apresentou um novo pipeline para o NeMo Retriever que transforma a busca em um processo agêntico: o modelo planeja as próprias etapas, reformula…
Processado por IA de Hugging Face Blog; editado por Hamidun News
A NVIDIA apresentou um novo pipeline agentic para NeMo Retriever — um sistema de busca que não se limita à comparação de similaridade semântica. Em vez de uma única consulta, ele inicia um ciclo de busca, avaliação de resultados intermediários e refinamento de estratégia, o que ajudou a solução a conquistar o primeiro lugar na classificação ViDoRe v3 e o segundo lugar no BRIGHT.
Por que uma busca não é suficiente
A retrieval densa clássica funciona bem quando é suficiente encontrar documentos semanticamente similares à consulta. Mas em cenários empresariais, isso geralmente não é o bastante: documentos podem ser visualmente complexos, consultas podem ser compostas e respostas podem estar espalhadas por múltiplas fontes. Em tais tarefas, você precisa não apenas de correspondência de embeddings, mas da capacidade de dividir uma pergunta em partes, testar hipóteses e mudar a direção da busca várias vezes.
A NVIDIA descreve isso como uma lacuna entre dois tipos de sistemas. Retrievers conseguem escanear rapidamente enormes volumes de dados, mas mal raciocinam. Grandes modelos de linguagem conseguem planejar e fazer inferências lógicas, mas não conseguem processar imediatamente milhões de documentos.
A retrieval agentic deve fechar essa lacuna ao combinar ambas as abordagens em um único ciclo.
Como funciona o ciclo
O pipeline é construído sobre a arquitetura ReACT. O agente não recebe uma tarefa como "uma consulta — um resultado", mas age passo a passo: pensa, chama a ferramenta retrieve(query, top_k), analisa o que foi encontrado e decide o que fazer a seguir. A resposta final é montada através de uma ferramenta separate final_results que retorna uma lista dos documentos mais relevantes. Segundo a equipe, vários padrões úteis emergiram naturalmente durante o processo:
- geração de consultas mais precisas conforme novos fatos aparecem;
- reformulação constante até que o sistema encontre um sinal útil;
- divisão de uma pergunta complexa em várias subtarefas simples;
- re-classificação dos documentos encontrados antes da seleção final.
Se o agente atingir o limite de passos ou comprimento do contexto, o pipeline não é interrompido às cegas. Reciprocal Rank Fusion é usado como proteção: documentos recebem uma pontuação final baseada em suas posições em diferentes tentativas de busca, e o sistema ainda retorna um conjunto significativo de resultados.
Onde o pipeline venceu
O resultado principal — não apenas um lugar no placar, mas universalidade. O mesmo pipeline, sem alterar a arquitetura base, conquistou o primeiro lugar no ViDoRe v3 com NDCG@10 69,22 e o segundo lugar no BRIGHT com NDCG@10 50,90. A primeira métrica é importante para documentos empresariais visualmente ricos e diversos, a segunda para tarefas que requerem raciocínio multi-passos.
Os autores compararam separadamente sua abordagem com soluções mais especializadas. Por exemplo, INF-X-Retriever lidera no BRIGHT com um resultado de 63,40, mas no ViDoRe v3 na mesma configuração com nemotron-colembed-vl-8b-v2 mostrou 62,31 — ainda menor que a retrieval densa regular com o mesmo modelo de embedding em 64,36. A NVIDIA usa essa comparação como argumento a favor de uma abordagem generalizável: o ciclo agentic se transfere melhor entre diferentes tipos de tarefas do que pipelines adaptados para um único benchmark.
Também é interessante que a equipe tenha restruturado a infraestrutura pela velocidade. Inicialmente, o retriever foi implantado como um servidor MCP, o que é lógico para o acesso da LLM a ferramentas externas. Mas na prática, isso adicionou chamadas de rede extras, um processo separado, risco de erros de configuração silenciosos e falhas sob carga.
Como resultado, o esquema MCP foi substituído por um retriever singleton thread-safe dentro do processo: o modelo e embeddings são carregados uma vez, o acesso é sincronizado através de um lock, e a interface retrieve() permanece a mesma. Isso eliminou uma classe inteira de problemas operacionais e acelerou os experimentos.
O custo da busca autônoma
A NVIDIA afirma diretamente que essa qualidade tem um preço. A retrieval agentic é notavelmente mais lenta e cara que a retrieval densa regular. No ViDoRe v3, uma consulta levou em média 136,3 segundos, exigiu aproximadamente 760 mil tokens de entrada e 6,3 mil tokens de saída, e o agente fez em média 9,2 chamadas de busca.
Para tarefas em tempo real, esse é um perfil pesado, especialmente quando se trata de carga em massa. A equipe também comparou modelos fechados e abertos. No ViDoRe v3, a combinação com Opus 4.
5 mostrou-se a melhor, mas a mudança para gpt-oss-120b open-weight resultou apenas em degradação moderada de qualidade — de 69,22 para 66,38. No BRIGHT, a diferença foi maior, indicando dependência de tarefas complexas de raciocínio de modelos frontier mais poderosos. O próximo passo da NVIDIA é tentar transferir esses padrões agentic para modelos abertos especializados mais compactos para reduzir custo e latência sem perda significativa de qualidade.
O que isso significa
A busca através de dados empresariais está se movimentando rapidamente para longe do modelo "insira uma consulta — obtenha documentos similares". A NVIDIA mostra que o próximo nível é um agente que consegue buscar iterativamente, mudar táticas e combinar raciocínio com retrieval. Embora essa abordagem seja atualmente cara e lenta, para cenários complexos de alto risco ela já parece uma arquitetura funcional, não um experimento laboratorial.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.