10 abordagens RAG que realmente funcionam em produção: do básico ao GraphRAG
Um desenvolvedor no Habr compilou uma lista prática de abordagens RAG realmente usadas em produção. A busca híbrida (densa + BM25) oferece consistentemente…
Processado por IA de Habr AI; editado por Hamidun News
Um desenvolvedor no Habr compilou uma lista prática de abordagens RAG que são realmente usadas em produção — com base em experiência pessoal e análise de estudos de caso de terceiros no último ano de crescimento ativo da pilha LLM.
Por Onde Todos Começam
Naive RAG — o ponto de partida para a maioria dos projetos. O esquema é simples: documentos são divididos em chunks, indexados via embeddings, e quando consultados, os mais próximos pela distância do cosseno são encontrados e passados para o LLM como contexto. Funciona em bases de conhecimento pequenas com perguntas simples e documentos homogêneos. Os problemas começam em escala: documentos longos não se encaixam bem em chunks fixos, perguntas complexas requerem múltiplos fragmentos simultaneamente, e as formulações do usuário frequentemente não correspondem ao estilo dos documentos. É aqui que abordagens avançadas entram em cena.
Busca Híbrida e Reranking
A busca híbrida — o primeiro upgrade que quase sempre compensa. Combinar vetores densos (busca semântica) com BM25 (busca por palavras-chave) fornece consistentemente +15–30% de melhoria de precisão em comparação com a busca apenas por embedding. Vetores densos capturam semelhança semântica, dispersos — correspondências exatas em termos, abreviações e nomes. Adicionar um reranker cross-encoder no topo dos 20 principais resultados ainda aumenta a qualidade em 10–15%. O reranker é um modelo mais pesado, mas funciona apenas no conjunto final de candidatos, então a latência permanece aceitável para produção.
Técnicas no Nível de Consulta
Alguns problemas de RAG são solucionados mais eficientemente antes da busca — através de reformulação ou expansão da consulta.
- HyDE — o LLM gera um documento-resposta hipotético, seu vetor é usado para busca. Particularmente útil quando o estilo da pergunta e o estilo dos documentos diferem significativamente.
- Multi-query — de uma pergunta, 3–5 paráfrases são geradas, a busca acontece em paralelo em todas elas. Reduz a dependência de uma formulação exata do usuário.
- Step-back prompting — antes da busca, o LLM generaliza a consulta para um nível mais alto de abstração. Útil quando a pergunta específica é muito nicho para uma boa recuperação.
- Parent Document Retriever — chunks pequenos são indexados (alta precisão) e o documento pai como um todo é passado para o contexto. Bom equilíbrio entre precisão e cobertura.
- Contextual compression — o LLM extrai apenas a parte relevante do chunk encontrado. Economiza tokens e reduz ruído no contexto.
Artilharia Pesada
Quando técnicas simples não são suficientes, abordagens arquitetonicamente mais complexas são acionadas.
RAPTOR constrói uma árvore hierárquica de documentos: agrupa chunks, sumariza cada cluster, depois agrupa resumos novamente. Na consulta, a busca acontece no nível necessário de abstração. Funciona bem em documentos longos — manuais técnicos, relatórios financeiros, livros com níveis variados de detalhe.
GraphRAG da Microsoft constrói um grafo de conhecimento: extrai entidades e relacionamentos do texto, cria resumos de comunidade para diferentes clusters temáticos. Consistentemente supera RAG padrão em perguntas analíticas e comparativas — "como X está relacionado a Y", "o que mudou desde o ponto A" — e em tarefas que requerem síntese em todo o corpus.
Self-RAG e Corrective RAG mudam o sistema para modo agente: o modelo em si decide se a busca é necessária, avalia a relevância do que foi encontrado e reformula a consulta se necessário. Adiciona latência e complexidade, mas notavelmente aumenta a qualidade em tarefas multi-passo e ambíguas.
O Que Isso Significa
Caminho prático: comece com busca híbrida mais reranking — isso cobre a maioria dos problemas com custos mínimos. Depois adicione multi-query ou HyDE para consultas diversas. Conecte GraphRAG e Self-RAG apenas quando técnicas mais simples falharem: elas requerem custos significativos de desenvolvimento e manutenção. Para a maioria dos produtos B2B, os dois primeiros passos são suficientes.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.