PSB detalhou a abordagem de RAG em fintech: arquitetura, métricas e ciclo de testes
O PSB compartilhou sua prática de avaliação de RAG em fintech e mostrou que o combate às alucinações não começa no prompt, mas na arquitetura e nos testes. O…
Processado por IA de Habr AI; editado por Hamidun News
O PSB publicou uma análise prática de como avalia e testa a abordagem RAG em tarefas onde o custo do erro é particularmente alto. Em vez de confiar na "inteligência" do modelo, o banco aposta em uma combinação de sua própria base de conhecimento, busca vetorial, métricas de qualidade e verificação manual regular.
Como funciona o RAG
O PSB lembra que o principal problema com LLMs não é apenas respostas fracas, mas também erros confiantes. É exatamente para isso que serve o RAG: o modelo primeiro busca informações em uma matriz de dados confiável, e só depois gera uma resposta. A base de conhecimento pode ser qualquer coisa — documentos, um site, um repositório interno ou um banco de dados estruturado.
Mas para que a busca funcione rapidamente, os materiais precisam primeiro ser divididos em fragmentos e convertidos em vetores através de um modelo de embedding. A qualidade da divisão em chunks frequentemente determina o sucesso. Para HTML e texto simples, o material pode ser dividido por parágrafos; para documentos formalizados — por pontuação; para matrizes de dados complexas — por contagem de tokens.
O artigo enfatiza separadamente que um token não é um caractere ou uma palavra, mas uma unidade de divisão que depende do tokenizador do modelo específico. Após a vetorização, o sistema recupera fragmentos relevantes do índice, os adiciona ao contexto e só então pede ao modelo para gerar uma resposta.
Medindo a Qualidade
O PSB sugere visualizar o RAG não através de uma única métrica, mas em três dimensões: qualidade da busca, precisão da resposta e qualidade da apresentação. Se o sistema não encontrar o documento necessário, nenhum LLM forte salvará o resultado. Se o documento for encontrado, o próximo problema é se o modelo o compreendeu corretamente e não adicionou nada desnecessário. E só depois faz sentido avaliar se a resposta é legível, útil e relevante para a pergunta do usuário.
- Hit Rate — o sistema encontra documentos relevantes em geral
- MRR — qual é a classificação do melhor documento nos resultados
- Factual Accuracy — quantas afirmações factuais corretas há na resposta
- Utilidade e clareza — a resposta resolve a tarefa sem desvios desnecessários
Para verificar a precisão, o PSB usa tanto cálculos automáticos quanto comparação com um "padrão ouro" — respostas preparadas por humanos. Outra camada de controle é um árbitro LLM, onde um modelo separado avalia o resultado do modelo principal. Mas em fintech, a automação esbarra em limitações: dados pessoais precisam ser limpos da base de conhecimento, e o reconhecimento desses dados não fornece garantia de 100%. É por isso que a verificação manual permanece uma parte obrigatória do processo.
"RAG é tecnologia, não magia."
Como é feito o teste no PSB
No teste, o PSB aplica a pirâmide clássica de qualidade ao RAG, mas ajustada para a arquitetura de tais sistemas. No nível inferior, verificam não fragmentos de código individuais, mas componentes: o próprio LLM, o banco de dados vetorial, configurações de extração e chunking de documentos. No nível seguinte estão os testes de API — aqui você pode observar carga, respostas, volume de chunks retornados e contagem de tokens.
Mais acima estão os cenários E2E, onde o comportamento do sistema em consultas reais do usuário é importante. E separadamente, testes manuais, que ainda são inevitáveis em domínios sensíveis. O próprio ciclo de avaliação também é descrito como um processo contínuo.
Primeiro, um conjunto de dados de teste é coletado: com a ajuda de um LLM, você pode gerar de centenas a milhares de perguntas. Então o RAG é executado através deste conjunto, respostas e documentos encontrados são salvos, métricas são calculadas, gargalos são identificados e o sistema é refinado. Para avaliação automática, o PSB atualmente usa RAGAS, e no futuro considera suas próprias ferramentas — incluindo painéis, integração CI/CD, comparação de versões A/B e mapas de calor de áreas problemáticas.
Esta abordagem é necessária não pela pureza acadêmica, mas para rastrear degradações e melhorias ao longo do tempo.
O que isso significa
Para empresas não dispostas a gastar grandes orçamentos em ajuste fino de modelo, o RAG permanece a maneira mais prática de melhorar rapidamente a precisão dos serviços de IA corporativos. Mas o artigo do PSB mostra bem um ponto importante: a recuperação sozinha não garante nada. Você precisa de disciplina na preparação de dados, métricas claras, testes regulares e um humano no loop — especialmente onde um erro na resposta pode afetar dinheiro, conformidade ou segurança do cliente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.