Como Bitrix24 construiu eval e automatizou a otimização do agente RAG Martha
Um desenvolvedor da Bitrix24 explicou como construiu um sistema eval abrangente para o assistente de IA Martha: conjuntos de dados especializados e…
Processado por IA de Habr AI; editado por Hamidun News
A equipe do Bitrix24 publicou a segunda parte de um detalhamento técnico do sistema RAG para o assistente de IA Martha. A primeira foi sobre o pipeline de retrieval e busca na base de conhecimento. Agora — sobre como medir a qualidade de toda a cadeia como um todo, por que métricas de retrieval isoladas não são suficientes e como automatizar o ciclo de experimentos para que toda mudança possa ser verificada sistematicamente.
Métricas de Retrieval Enganam
Métricas clássicas de busca — precision, recall, MRR — mostram com que precisão o sistema encontra os documentos certos. Mas não respondem à questão principal: o usuário recebeu uma resposta útil? Os desenvolvedores do Bitrix24 enfrentaram a armadilha típica de RAG em produção: as métricas de retrieval cresciam de experimento para experimento, mas a qualidade real das respostas de Martha melhorava desproporcionalmente — e às vezes não melhorava.
Retrieval e generation são elos diferentes da mesma cadeia. Melhorar a busca não garante melhorar a resposta final.
A solução é um sistema de eval end-to-end que avalia a resposta final visível ao usuário, não apenas o resultado intermediário da busca.
Dois Tipos de Conjuntos de Dados
A base do sistema de avaliação são dois conjuntos de dados com características fundamentalmente diferentes:
- Conjunto de dados de especialista — perguntas e respostas de referência escritas manualmente por especialistas que conhecem bem o produto. Preciso e confiável: se o sistema comete um erro aqui, o problema é óbvio. A desvantagem — caro criar, difícil de escalar.
- Conjunto de dados sintético — pares de pergunta-resposta gerados automaticamente a partir da documentação do produto. Criado rapidamente e em grande volume, mas requer filtragem: a geração com LLM inevitavelmente introduz ruído e artefatos.
Ambos os conjuntos de dados funcionam juntos. O conjunto de dados de especialista cobre cenários criticamente importantes, o conjunto de dados sintético cobre a cauda longa de consultas que não podem ser alcançadas manualmente. Esta combinação oferece uma visão mais completa da qualidade do que qualquer abordagem isoladamente.
Loop de Otimização Fechado
O resultado prático-chave da segunda parte é a automação do ciclo de experimentos. Anteriormente, cada mudança no pipeline de retrieval exigia verificação manual: executar eval, coletar métricas, comparar com a versão anterior, tomar uma decisão. Lento, subjetivo e não escala bem.
O novo sistema fecha o loop:
- mudança entra no pipeline
- eval é executado automaticamente em ambos os conjuntos de dados
- métricas são comparadas contra baseline
- regressões são corrigidas imediatamente e não vão para produção
- histórico de experimentos acumula de forma estruturada
Essencialmente, é CI/CD para qualidade de resposta. Cada experimento deixa um rastro, a equipe vê quais soluções funcionam sistematicamente, não por acaso. Isso é especialmente importante quando o pipeline RAG consiste em vários componentes interdependentes.
Quando Métricas Divergem
Uma das principais observações do artigo: métricas de retrieval e métricas de qualidade de resposta final podem se mover em direções opostas — e isso é normal. A busca mais precisa às vezes retorna documentos que são tecnicamente relevantes, mas não ajudam o LLM a formular uma boa resposta: muito longos, muito técnicos ou duplicando um ao outro.
Inversamente, um retrieval menos agressivo às vezes produz um resultado melhor porque o contexto fica mais compacto e limpo para a geração.
"RAG em produção é trabalho constante com retrieval, ruído e latência."
A visão final da qualidade é sempre várias métricas funcionando juntas. Focar em apenas uma significa otimizar a coisa errada.
O Que Isso Significa
A experiência do Bitrix24 mostra como se parece uma abordagem madura de RAG em produção: não "lance e torça", mas trabalho sistemático com conjuntos de dados, métricas end-to-end e ciclos de eval automatizados. Este processo transforma a otimização de uma série de suposições intuitivas em uma disciplina de engenharia gerenciada — com experimentos reproduzíveis e um histórico claro de decisões.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.