Habr AI→ original

PSB detalhou a abordagem de RAG em fintech: arquitetura, métricas e ciclo de testes

O PSB compartilhou sua prática de avaliação de RAG em fintech e mostrou que o combate às alucinações não começa no prompt, mas na arquitetura e nos testes. O…

Processado por IA de Habr AI; editado por Hamidun News
PSB detalhou a abordagem de RAG em fintech: arquitetura, métricas e ciclo de testes
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

O PSB publicou uma análise prática de como avalia e testa a abordagem RAG em tarefas onde o custo do erro é particularmente alto. Em vez de confiar na "inteligência" do modelo, o banco aposta em uma combinação de sua própria base de conhecimento, busca vetorial, métricas de qualidade e verificação manual regular.

Como funciona o RAG

O PSB lembra que o principal problema com LLMs não é apenas respostas fracas, mas também erros confiantes. É exatamente para isso que serve o RAG: o modelo primeiro busca informações em uma matriz de dados confiável, e só depois gera uma resposta. A base de conhecimento pode ser qualquer coisa — documentos, um site, um repositório interno ou um banco de dados estruturado.

Mas para que a busca funcione rapidamente, os materiais precisam primeiro ser divididos em fragmentos e convertidos em vetores através de um modelo de embedding. A qualidade da divisão em chunks frequentemente determina o sucesso. Para HTML e texto simples, o material pode ser dividido por parágrafos; para documentos formalizados — por pontuação; para matrizes de dados complexas — por contagem de tokens.

O artigo enfatiza separadamente que um token não é um caractere ou uma palavra, mas uma unidade de divisão que depende do tokenizador do modelo específico. Após a vetorização, o sistema recupera fragmentos relevantes do índice, os adiciona ao contexto e só então pede ao modelo para gerar uma resposta.

Medindo a Qualidade

O PSB sugere visualizar o RAG não através de uma única métrica, mas em três dimensões: qualidade da busca, precisão da resposta e qualidade da apresentação. Se o sistema não encontrar o documento necessário, nenhum LLM forte salvará o resultado. Se o documento for encontrado, o próximo problema é se o modelo o compreendeu corretamente e não adicionou nada desnecessário. E só depois faz sentido avaliar se a resposta é legível, útil e relevante para a pergunta do usuário.

  • Hit Rate — o sistema encontra documentos relevantes em geral
  • MRR — qual é a classificação do melhor documento nos resultados
  • Factual Accuracy — quantas afirmações factuais corretas há na resposta
  • Utilidade e clareza — a resposta resolve a tarefa sem desvios desnecessários

Para verificar a precisão, o PSB usa tanto cálculos automáticos quanto comparação com um "padrão ouro" — respostas preparadas por humanos. Outra camada de controle é um árbitro LLM, onde um modelo separado avalia o resultado do modelo principal. Mas em fintech, a automação esbarra em limitações: dados pessoais precisam ser limpos da base de conhecimento, e o reconhecimento desses dados não fornece garantia de 100%. É por isso que a verificação manual permanece uma parte obrigatória do processo.

"RAG é tecnologia, não magia."

Como é feito o teste no PSB

No teste, o PSB aplica a pirâmide clássica de qualidade ao RAG, mas ajustada para a arquitetura de tais sistemas. No nível inferior, verificam não fragmentos de código individuais, mas componentes: o próprio LLM, o banco de dados vetorial, configurações de extração e chunking de documentos. No nível seguinte estão os testes de API — aqui você pode observar carga, respostas, volume de chunks retornados e contagem de tokens.

Mais acima estão os cenários E2E, onde o comportamento do sistema em consultas reais do usuário é importante. E separadamente, testes manuais, que ainda são inevitáveis em domínios sensíveis. O próprio ciclo de avaliação também é descrito como um processo contínuo.

Primeiro, um conjunto de dados de teste é coletado: com a ajuda de um LLM, você pode gerar de centenas a milhares de perguntas. Então o RAG é executado através deste conjunto, respostas e documentos encontrados são salvos, métricas são calculadas, gargalos são identificados e o sistema é refinado. Para avaliação automática, o PSB atualmente usa RAGAS, e no futuro considera suas próprias ferramentas — incluindo painéis, integração CI/CD, comparação de versões A/B e mapas de calor de áreas problemáticas.

Esta abordagem é necessária não pela pureza acadêmica, mas para rastrear degradações e melhorias ao longo do tempo.

O que isso significa

Para empresas não dispostas a gastar grandes orçamentos em ajuste fino de modelo, o RAG permanece a maneira mais prática de melhorar rapidamente a precisão dos serviços de IA corporativos. Mas o artigo do PSB mostra bem um ponto importante: a recuperação sozinha não garante nada. Você precisa de disciplina na preparação de dados, métricas claras, testes regulares e um humano no loop — especialmente onde um erro na resposta pode afetar dinheiro, conformidade ou segurança do cliente.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…