Habr AI→ original

PageIndex da VectifyAI oferece busca sem embeddings para documentos longos

PageIndex da VectifyAI propõe uma abordagem diferente para trabalhar com documentos longos: em vez de chunks e bases de dados vetoriais, o sistema constrói…

Processado por IA de Habr AI; editado por Hamidun News
PageIndex da VectifyAI oferece busca sem embeddings para documentos longos
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

PageIndex é um dos novos concorrentes mais notáveis para o papel de 'RAG sem banco de dados vetorial'. Em vez do esquema familiar com embeddings e chunks, o sistema constrói um índice hierárquico para o documento com descrições breves das seções, e então pede a um LLM que selecione logicamente nós relevantes e páginas associadas. A abordagem parece fresca e para PDFs longos e bem estruturados pode funcionar de forma próxima ao modo como um humano lê um documento.

A mecânica do PageIndex é relativamente simples. O documento é primeiro dividido por páginas, após o que o modelo e código de suporte compilam um TOC expandido — uma árvore de seções com títulos, faixas de páginas e resumos para cada nó. Quando uma pergunta chega, o prompt não envia todo o documento ou um conjunto de chunks de texto aleatórios, mas sim essa estrutura em si. O LLM seleciona ramos relevantes da árvore, e então apenas as páginas anexadas a eles são substituídas na consulta final.

Como resultado, o sistema funciona sem embeddings, sem armazenamento vetorial e sem chunking artificial, que frequentemente quebra o significado nos limites dos fragmentos. É por isso que há tanto interesse em torno do PageIndex. Em longos relatórios financeiros, documentos legais, manuais técnicos e materiais educacionais, essa abordagem parece natural: os humanos também geralmente começam com um índice em vez de passar pelo texto em pedaços.

No repositório do projeto, os desenvolvedores da VectifyAI posicionam diretamente o sistema como retrieval baseado em raciocínio e afirmam que no FinanceBench ele alcançou 98,7% de precisão. Para equipes que trabalham com um único documento grande ou uma pequena coleção de PDFs complexos, isso soa como uma forte alternativa ao pipeline RAG convencional, especialmente se você quer uma busca mais interpretável com referências claras a seções e páginas.

Mas a questão principal não é se a busca vetorial pode ser substituída por PageIndex, mas onde essa abordagem atinge seus limites. A crítica aqui é bastante pragmática. Primeiro, o TOC também precisa ser armazenado em algum lugar, especialmente se houver mais de um documento, então a conversa sobre 'completamente sem índice' é um pouco enganosa.

Segundo, para grandes coleções ainda não há uma estratégia convincente para seleção de documentos: metadados, busca por palavras-chave, TF-IDF e BM25 não desaparecem e frequentemente permanecem como um filtro inicial barato. Terceiro, o retrieval por raciocínio é quase inevitavelmente mais caro em tokens e mais lento em tempo de resposta. Se um bom RAG vetorial já fornece cerca de 90% de qualidade, os pontos percentuais adicionais de precisão podem custar várias vezes mais — e para nem todo produto esse é um trade-off razoável.

A prática também mostra limitações. Em análises, observa-se que PageIndex teve baixo desempenho com texto literário sem estrutura explícita: se um documento não tem seções ou cabeçalhos, simplesmente não há nada para construir um 'índice inteligente'. Os resultados foram melhores com texto acadêmico porque tem uma hierarquia apropriada de seções. Você pode executar o sistema localmente através do repositório aberto: instale as dependências, defina uma chave de API para um LLM compatível via LiteLLM e execute um PDF ou markdown através de run_pageindex.py.

Mas há nuances aqui também: o autor adverte separadamente sobre a versão do LiteLLM, desaconselha a instalação do pacote pageindex em nuvem do pip para trabalho local e descreve como em modelos locais fracos a qualidade da árvore se degrada notavelmente, e o próprio processo pode levar dezenas de minutos mesmo em um documento relativamente pequeno.

O que isso significa na prática? PageIndex não parece um assassino da busca vetorial, mas parece uma camada nova e útil na arquitetura RAG. A forma mais lógica de vê-lo é não como uma substituição direta, mas como uma ferramenta especializada para documentos longos e estruturados onde a explicabilidade, precisão de navegação e processamento página por página importam. O cenário mais realista é híbrido: primeiro uma busca barata por metadados ou vetores, depois PageIndex para seleção precisa de seções. Tal compromisso reflete melhor a realidade: ainda não há uma substituição universal para RAG vetorial, mas abordagens document-first como PageIndex já têm seu próprio nicho bem definido.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…