Hugging Face Blog→ original

NVIDIA apresenta o NeMo Retriever — busca agêntica para dados corporativos complexos

A NVIDIA apresentou um novo pipeline para o NeMo Retriever que transforma a busca em um processo agêntico: o modelo planeja as próprias etapas, reformula…

Processado por IA de Hugging Face Blog; editado por Hamidun News
NVIDIA apresenta o NeMo Retriever — busca agêntica para dados corporativos complexos
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A NVIDIA apresentou um novo pipeline agentic para NeMo Retriever — um sistema de busca que não se limita à comparação de similaridade semântica. Em vez de uma única consulta, ele inicia um ciclo de busca, avaliação de resultados intermediários e refinamento de estratégia, o que ajudou a solução a conquistar o primeiro lugar na classificação ViDoRe v3 e o segundo lugar no BRIGHT.

Por que uma busca não é suficiente

A retrieval densa clássica funciona bem quando é suficiente encontrar documentos semanticamente similares à consulta. Mas em cenários empresariais, isso geralmente não é o bastante: documentos podem ser visualmente complexos, consultas podem ser compostas e respostas podem estar espalhadas por múltiplas fontes. Em tais tarefas, você precisa não apenas de correspondência de embeddings, mas da capacidade de dividir uma pergunta em partes, testar hipóteses e mudar a direção da busca várias vezes.

A NVIDIA descreve isso como uma lacuna entre dois tipos de sistemas. Retrievers conseguem escanear rapidamente enormes volumes de dados, mas mal raciocinam. Grandes modelos de linguagem conseguem planejar e fazer inferências lógicas, mas não conseguem processar imediatamente milhões de documentos.

A retrieval agentic deve fechar essa lacuna ao combinar ambas as abordagens em um único ciclo.

Como funciona o ciclo

O pipeline é construído sobre a arquitetura ReACT. O agente não recebe uma tarefa como "uma consulta — um resultado", mas age passo a passo: pensa, chama a ferramenta retrieve(query, top_k), analisa o que foi encontrado e decide o que fazer a seguir. A resposta final é montada através de uma ferramenta separate final_results que retorna uma lista dos documentos mais relevantes. Segundo a equipe, vários padrões úteis emergiram naturalmente durante o processo:

  • geração de consultas mais precisas conforme novos fatos aparecem;
  • reformulação constante até que o sistema encontre um sinal útil;
  • divisão de uma pergunta complexa em várias subtarefas simples;
  • re-classificação dos documentos encontrados antes da seleção final.

Se o agente atingir o limite de passos ou comprimento do contexto, o pipeline não é interrompido às cegas. Reciprocal Rank Fusion é usado como proteção: documentos recebem uma pontuação final baseada em suas posições em diferentes tentativas de busca, e o sistema ainda retorna um conjunto significativo de resultados.

Onde o pipeline venceu

O resultado principal — não apenas um lugar no placar, mas universalidade. O mesmo pipeline, sem alterar a arquitetura base, conquistou o primeiro lugar no ViDoRe v3 com NDCG@10 69,22 e o segundo lugar no BRIGHT com NDCG@10 50,90. A primeira métrica é importante para documentos empresariais visualmente ricos e diversos, a segunda para tarefas que requerem raciocínio multi-passos.

Os autores compararam separadamente sua abordagem com soluções mais especializadas. Por exemplo, INF-X-Retriever lidera no BRIGHT com um resultado de 63,40, mas no ViDoRe v3 na mesma configuração com nemotron-colembed-vl-8b-v2 mostrou 62,31 — ainda menor que a retrieval densa regular com o mesmo modelo de embedding em 64,36. A NVIDIA usa essa comparação como argumento a favor de uma abordagem generalizável: o ciclo agentic se transfere melhor entre diferentes tipos de tarefas do que pipelines adaptados para um único benchmark.

Também é interessante que a equipe tenha restruturado a infraestrutura pela velocidade. Inicialmente, o retriever foi implantado como um servidor MCP, o que é lógico para o acesso da LLM a ferramentas externas. Mas na prática, isso adicionou chamadas de rede extras, um processo separado, risco de erros de configuração silenciosos e falhas sob carga.

Como resultado, o esquema MCP foi substituído por um retriever singleton thread-safe dentro do processo: o modelo e embeddings são carregados uma vez, o acesso é sincronizado através de um lock, e a interface retrieve() permanece a mesma. Isso eliminou uma classe inteira de problemas operacionais e acelerou os experimentos.

O custo da busca autônoma

A NVIDIA afirma diretamente que essa qualidade tem um preço. A retrieval agentic é notavelmente mais lenta e cara que a retrieval densa regular. No ViDoRe v3, uma consulta levou em média 136,3 segundos, exigiu aproximadamente 760 mil tokens de entrada e 6,3 mil tokens de saída, e o agente fez em média 9,2 chamadas de busca.

Para tarefas em tempo real, esse é um perfil pesado, especialmente quando se trata de carga em massa. A equipe também comparou modelos fechados e abertos. No ViDoRe v3, a combinação com Opus 4.

5 mostrou-se a melhor, mas a mudança para gpt-oss-120b open-weight resultou apenas em degradação moderada de qualidade — de 69,22 para 66,38. No BRIGHT, a diferença foi maior, indicando dependência de tarefas complexas de raciocínio de modelos frontier mais poderosos. O próximo passo da NVIDIA é tentar transferir esses padrões agentic para modelos abertos especializados mais compactos para reduzir custo e latência sem perda significativa de qualidade.

O que isso significa

A busca através de dados empresariais está se movimentando rapidamente para longe do modelo "insira uma consulta — obtenha documentos similares". A NVIDIA mostra que o próximo nível é um agente que consegue buscar iterativamente, mudar táticas e combinar raciocínio com retrieval. Embora essa abordagem seja atualmente cara e lenta, para cenários complexos de alto risco ela já parece uma arquitetura funcional, não um experimento laboratorial.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…