Técnicas e métodos

Reranking

Reranking é uma técnica de recuperação em dois estágios que primeiro recupera um conjunto amplo de candidatos usando um método rápido de bi-codificador ou palavras-chave, então re-pontua esses candidatos com um modelo de cross-encoder mais lento e mais preciso para melhorar a qualidade da classificação final.

Reranking é uma técnica de recuperação de informação em dois estágios usada para melhorar a relevância dos resultados de busca e recuperação de documentos. No primeiro estágio, um método rápido — como correspondência de palavras-chave BM25 ou busca de vetores de vizinhos mais próximos aproximados (ANN) via embeddings de bi-codificador — recupera rapidamente um conjunto grande de candidatos, frequentemente 50–500 itens, de um corpus. No segundo estágio, um modelo reranker re-pontua cada candidato contra a consulta original e os reordena para exibir os resultados mais relevantes no topo.

O reranker central é tipicamente um cross-encoder: um transformador que recebe a consulta e um documento candidato concatenados como entrada, permitindo atenção cruzada completa entre eles. Isso é computacionalmente caro em comparação com o cálculo de embeddings independentemente, mas produz pontuações de relevância significativamente mais altas. Modelos reranker amplamente usados incluem Cohere Rerank 3 (lançado em abril de 2024), a série BGE-Reranker-v2 do BAAI, e modelos baseados em ColBERT que usam interação tardia entre embeddings no nível de token como um meio termo entre velocidade e precisão.

Reranking é um componente crítico em pipelines de Geração Aumentada por Recuperação (RAG), onde apenas as k passagens re-classificadas no topo são passadas para o modelo de linguagem como contexto. Sem reranking, chunks marginalmente relevantes podem deslocar aqueles genuinamente úteis, degradando a qualidade da resposta gerada. O mesmo padrão se aplica em busca corporativa, descoberta de documentos legais e sistemas de suporte ao cliente que exigem alta precisão.

Em 2026, reranking é um bloco de construção padrão em arquiteturas RAG de produção. APIs hospedadas de Cohere, JinaAI e Voyage AI simplificam adicionar reranking sem auto-hospedar infraestrutura de modelo, e frameworks como LangChain e LlamaIndex fornecem integrações nativas. A pesquisa continua em recuperação esparsa aprendida e modelos de interação tardia que apagam o limite entre recuperação de primeiro estágio e reranking.

Exemplo

Em um sistema de suporte ao cliente RAG, um bi-codificador primeiro recupera 100 artigos potencialmente relevantes da base de conhecimento em milissegundos; um modelo Cohere Rerank 3 então re-pontua todos os 100 contra a consulta do usuário e retorna os 5 melhores para o LLM para geração de resposta.

Termos relacionados

Últimas notícias sobre o tema

← Glossário