Habr AI→ original

10 abordagens RAG que realmente funcionam em produção: do básico ao GraphRAG

Um desenvolvedor no Habr compilou uma lista prática de abordagens RAG realmente usadas em produção. A busca híbrida (densa + BM25) oferece consistentemente…

Processado por IA de Habr AI; editado por Hamidun News
10 abordagens RAG que realmente funcionam em produção: do básico ao GraphRAG
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Um desenvolvedor no Habr compilou uma lista prática de abordagens RAG que são realmente usadas em produção — com base em experiência pessoal e análise de estudos de caso de terceiros no último ano de crescimento ativo da pilha LLM.

Por Onde Todos Começam

Naive RAG — o ponto de partida para a maioria dos projetos. O esquema é simples: documentos são divididos em chunks, indexados via embeddings, e quando consultados, os mais próximos pela distância do cosseno são encontrados e passados para o LLM como contexto. Funciona em bases de conhecimento pequenas com perguntas simples e documentos homogêneos. Os problemas começam em escala: documentos longos não se encaixam bem em chunks fixos, perguntas complexas requerem múltiplos fragmentos simultaneamente, e as formulações do usuário frequentemente não correspondem ao estilo dos documentos. É aqui que abordagens avançadas entram em cena.

Busca Híbrida e Reranking

A busca híbrida — o primeiro upgrade que quase sempre compensa. Combinar vetores densos (busca semântica) com BM25 (busca por palavras-chave) fornece consistentemente +15–30% de melhoria de precisão em comparação com a busca apenas por embedding. Vetores densos capturam semelhança semântica, dispersos — correspondências exatas em termos, abreviações e nomes. Adicionar um reranker cross-encoder no topo dos 20 principais resultados ainda aumenta a qualidade em 10–15%. O reranker é um modelo mais pesado, mas funciona apenas no conjunto final de candidatos, então a latência permanece aceitável para produção.

Técnicas no Nível de Consulta

Alguns problemas de RAG são solucionados mais eficientemente antes da busca — através de reformulação ou expansão da consulta.

  • HyDE — o LLM gera um documento-resposta hipotético, seu vetor é usado para busca. Particularmente útil quando o estilo da pergunta e o estilo dos documentos diferem significativamente.
  • Multi-query — de uma pergunta, 3–5 paráfrases são geradas, a busca acontece em paralelo em todas elas. Reduz a dependência de uma formulação exata do usuário.
  • Step-back prompting — antes da busca, o LLM generaliza a consulta para um nível mais alto de abstração. Útil quando a pergunta específica é muito nicho para uma boa recuperação.
  • Parent Document Retriever — chunks pequenos são indexados (alta precisão) e o documento pai como um todo é passado para o contexto. Bom equilíbrio entre precisão e cobertura.
  • Contextual compression — o LLM extrai apenas a parte relevante do chunk encontrado. Economiza tokens e reduz ruído no contexto.

Artilharia Pesada

Quando técnicas simples não são suficientes, abordagens arquitetonicamente mais complexas são acionadas.

RAPTOR constrói uma árvore hierárquica de documentos: agrupa chunks, sumariza cada cluster, depois agrupa resumos novamente. Na consulta, a busca acontece no nível necessário de abstração. Funciona bem em documentos longos — manuais técnicos, relatórios financeiros, livros com níveis variados de detalhe.

GraphRAG da Microsoft constrói um grafo de conhecimento: extrai entidades e relacionamentos do texto, cria resumos de comunidade para diferentes clusters temáticos. Consistentemente supera RAG padrão em perguntas analíticas e comparativas — "como X está relacionado a Y", "o que mudou desde o ponto A" — e em tarefas que requerem síntese em todo o corpus.

Self-RAG e Corrective RAG mudam o sistema para modo agente: o modelo em si decide se a busca é necessária, avalia a relevância do que foi encontrado e reformula a consulta se necessário. Adiciona latência e complexidade, mas notavelmente aumenta a qualidade em tarefas multi-passo e ambíguas.

O Que Isso Significa

Caminho prático: comece com busca híbrida mais reranking — isso cobre a maioria dos problemas com custos mínimos. Depois adicione multi-query ou HyDE para consultas diversas. Conecte GraphRAG e Self-RAG apenas quando técnicas mais simples falharem: elas requerem custos significativos de desenvolvimento e manutenção. Para a maioria dos produtos B2B, os dois primeiros passos são suficientes.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…