Habr AI→ original

Como Bitrix24 construiu eval e automatizou a otimização do agente RAG Martha

Um desenvolvedor da Bitrix24 explicou como construiu um sistema eval abrangente para o assistente de IA Martha: conjuntos de dados especializados e…

Processado por IA de Habr AI; editado por Hamidun News
Como Bitrix24 construiu eval e automatizou a otimização do agente RAG Martha
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A equipe do Bitrix24 publicou a segunda parte de um detalhamento técnico do sistema RAG para o assistente de IA Martha. A primeira foi sobre o pipeline de retrieval e busca na base de conhecimento. Agora — sobre como medir a qualidade de toda a cadeia como um todo, por que métricas de retrieval isoladas não são suficientes e como automatizar o ciclo de experimentos para que toda mudança possa ser verificada sistematicamente.

Métricas de Retrieval Enganam

Métricas clássicas de busca — precision, recall, MRR — mostram com que precisão o sistema encontra os documentos certos. Mas não respondem à questão principal: o usuário recebeu uma resposta útil? Os desenvolvedores do Bitrix24 enfrentaram a armadilha típica de RAG em produção: as métricas de retrieval cresciam de experimento para experimento, mas a qualidade real das respostas de Martha melhorava desproporcionalmente — e às vezes não melhorava.

Retrieval e generation são elos diferentes da mesma cadeia. Melhorar a busca não garante melhorar a resposta final.

A solução é um sistema de eval end-to-end que avalia a resposta final visível ao usuário, não apenas o resultado intermediário da busca.

Dois Tipos de Conjuntos de Dados

A base do sistema de avaliação são dois conjuntos de dados com características fundamentalmente diferentes:

  • Conjunto de dados de especialista — perguntas e respostas de referência escritas manualmente por especialistas que conhecem bem o produto. Preciso e confiável: se o sistema comete um erro aqui, o problema é óbvio. A desvantagem — caro criar, difícil de escalar.
  • Conjunto de dados sintético — pares de pergunta-resposta gerados automaticamente a partir da documentação do produto. Criado rapidamente e em grande volume, mas requer filtragem: a geração com LLM inevitavelmente introduz ruído e artefatos.

Ambos os conjuntos de dados funcionam juntos. O conjunto de dados de especialista cobre cenários criticamente importantes, o conjunto de dados sintético cobre a cauda longa de consultas que não podem ser alcançadas manualmente. Esta combinação oferece uma visão mais completa da qualidade do que qualquer abordagem isoladamente.

Loop de Otimização Fechado

O resultado prático-chave da segunda parte é a automação do ciclo de experimentos. Anteriormente, cada mudança no pipeline de retrieval exigia verificação manual: executar eval, coletar métricas, comparar com a versão anterior, tomar uma decisão. Lento, subjetivo e não escala bem.

O novo sistema fecha o loop:

  • mudança entra no pipeline
  • eval é executado automaticamente em ambos os conjuntos de dados
  • métricas são comparadas contra baseline
  • regressões são corrigidas imediatamente e não vão para produção
  • histórico de experimentos acumula de forma estruturada

Essencialmente, é CI/CD para qualidade de resposta. Cada experimento deixa um rastro, a equipe vê quais soluções funcionam sistematicamente, não por acaso. Isso é especialmente importante quando o pipeline RAG consiste em vários componentes interdependentes.

Quando Métricas Divergem

Uma das principais observações do artigo: métricas de retrieval e métricas de qualidade de resposta final podem se mover em direções opostas — e isso é normal. A busca mais precisa às vezes retorna documentos que são tecnicamente relevantes, mas não ajudam o LLM a formular uma boa resposta: muito longos, muito técnicos ou duplicando um ao outro.

Inversamente, um retrieval menos agressivo às vezes produz um resultado melhor porque o contexto fica mais compacto e limpo para a geração.

"RAG em produção é trabalho constante com retrieval, ruído e latência."

A visão final da qualidade é sempre várias métricas funcionando juntas. Focar em apenas uma significa otimizar a coisa errada.

O Que Isso Significa

A experiência do Bitrix24 mostra como se parece uma abordagem madura de RAG em produção: não "lance e torça", mas trabalho sistemático com conjuntos de dados, métricas end-to-end e ciclos de eval automatizados. Este processo transforma a otimização de uma série de suposições intuitivas em uma disciplina de engenharia gerenciada — com experimentos reproduzíveis e um histórico claro de decisões.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…