Habr AI→ original

RAGAS e métricas de RAG: como parar de adivinhar e começar a medir a qualidade

Sistemas RAG frequentemente introduzem alucinações ou perdem contexto relevante. O RAGAS oferece quatro métricas automáticas: Faithfulness (fidelidade ao contex

RAGAS e métricas de RAG: como parar de adivinhar e começar a medir a qualidade
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Sistemas RAG estão ganhando popularidade, mas frequentemente produzem respostas incorretas, adicionam fatos fabricados ou ignoram contexto relevante. Na terceira parte do nosso ciclo sobre engenharia de qualidade, exploraremos como medir RAG em vez de adivinhar, e como usar RAGAS — um framework que substitui verificação manual por automação.

Por que métricas RAG são mais difíceis que métricas LLM

Um LLM padrão pode ser avaliado em conjuntos de benchmark: MMLU, HumanEval, TruthfulQA. RAG adiciona uma camada de recuperação — novos modos de falha surgem. Uma pergunta como "Qual era o salário de Gates em 1997?" pode falhar de várias maneiras:

  • O mecanismo de busca não encontrou um documento relevante — a busca retornou ruído
  • O modelo encontrou o documento mas ignorou o fato relevante — falta de atenção
  • O modelo encontrou o fato mas adicionou alucinação por cima — misturando fonte e fabricação
  • O contexto era relevante, mas a resposta não corresponde à pergunta — erro lógico

Para gerenciar esses cenários, métricas especializadas são necessárias. Verificação manual de cada resposta é cara e não escala para milhares de consultas.

RAGAS: quatro métricas para todos os casos

RAGAS — um framework da Basis AI para avaliação automática de RAG. Aqui estão suas métricas principais:

  • Faithfulness — a resposta gerada é fiel ao contexto? O modelo verifica se o LLM adicionou fatos não presentes nas fontes. A pontuação varia de 0 a 1.
  • Answer Relevance — a resposta corresponde à pergunta? RAGAS gera uma pergunta reversa a partir da resposta e compara pela semântica.
  • Context Precision — os fragmentos recuperados são relevantes? Verifica se o mecanismo de busca confundiu a direção ou retornou ruído.
  • Context Recall — completude do contexto? Toda a informação necessária estava nos documentos para uma resposta completa à pergunta.

Cada métrica aponta para um gargalo: recuperação ruim, geração ruim, ou ambos.

Como RAGAS avalia internamente

Não há magia aqui — RAGAS usa o próprio LLM como juiz. Para Faithfulness, ele pega a resposta gerada e o contexto, pede ao modelo para identificar afirmações que podem ser verificadas (factual claims), depois verifica cada uma contra o contexto, uma a uma. Se uma afirmação é suportada por um fato na fonte — a pontuação aumenta.

Para Answer Relevance, ele gera uma pergunta hipotética a partir da resposta (reversa), depois calcula a similaridade do cosseno (distância semântica) para a pergunta original. Quanto maior a correspondência, mais relevante é a resposta.

"Se seu LLM sabe como mentir, ele sabe como detectar mentiras", — a

lógica do framework.

Todo o processo requer chamadas de LLM (para cada resposta — no mínimo 2 a 3 chamadas), então RAGAS é considerado caro em tokens. Mas a alternativa — contratar pessoas para rotulação — é ainda mais cara e mais lenta.

O que isso significa

RAGAS torna a engenharia RAG reproduzível e rastreável. Em vez do qualitativo "parece funcionar", você obtém métricas quantitativas que rastreiam como cada atualização (novos documentos, novo modelo, novo prompt) afeta a qualidade.

Para pequenos projetos pessoais, RAGAS pode ser excessivo. Para soluções empresariais, onde erros custam dinheiro e confiança do cliente, é a tabela periódica que engenheiros de RAG há muito não tinham.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…