Como parar de adivinhar e começar a medir a qualidade dos agentes de AI
A equipe da Bitrix24 contou como, em seis meses, passou do teste manual de seu agente de AI, Marta, para um sistema automatizado de benchmarks. O problema é…
Processado por IA de Habr AI; editado por Hamidun News
Cada equipe que colocou um agente AI em produção eventualmente enfrenta o mesmo pesadelo. Um usuário escreve para o suporte: "seu bot está falando besteira". Um desenvolvedor abre os logs, olha para o prompt, olha para a resposta — e não consegue descobrir o que exatamente deu errado. É uma regressão após o commit de ontem? Um efeito colateral da mudança de modelo? Ou apenas um caso extremo infeliz que sempre existiu? A equipe Bitrix24 passou por todos os estágios desse processo com seu agente AI Martha — e agora estão compartilhando as lições que todos que trabalham com modelos de linguagem grandes em produção deveriam aprender.
Martha é um assistente AI dentro do ecossistema Bitrix24 que interage com CRM, gerencia tarefas e responde perguntas de usuários. Nos primeiros estágios, tudo parecia simples: abrir um chat, fazer uma pergunta, olhar para a resposta com seus próprios olhos. Teste manual clássico, que funciona enquanto o agente consegue fazer dez coisas. Mas assim que a funcionalidade de Martha cresceu, essa abordagem começou a falhar. Um engenheiro não consegue fisicamente executar duzentos cenários após cada revisão de prompt. E revisões de prompts no desenvolvimento moderno de produtos AI não são exceção — são rotina diária.
O problema que a equipe descreve é de natureza sistêmica. Engenharia de prompt é inerentemente instável por natureza: a menor mudança na formulação de uma instrução pode afetar imprevisivelmente o comportamento do modelo em dezenas de contextos diferentes. Adicione a isso mudanças periódicas de versão de modelo dos provedores, atualizações de prompts do sistema, expansão do conjunto de ferramentas disponíveis para o agente — e você tem uma explosão combinatória de possíveis pontos de falha. Sem controle automático de qualidade, a equipe efetivamente trabalha às cegas, reagindo a problemas após o fato em vez de preveni-los.
A solução a que a Bitrix24 chegou foi construir um sistema completo de benchmarks. A essência da abordagem é formalizar as expectativas para o agente AI como um conjunto de cenários de teste com critérios de sucesso mensuráveis. Estes não são testes unitários no sentido clássico: as respostas do modelo de linguagem são não-determinísticas, e verificá-las quanto a correspondência exata é inútil. Em vez disso, são usadas métricas que avaliam relevância, completude, correção da invocação de ferramentas e alinhamento com o tom de comunicação. Essencialmente, a equipe está construindo um análogo automatizado de avaliação por especialistas que pode ser executado após cada alteração.
O caminho da ideia para um sistema funcionando levou cerca de meio ano — e este é um número honesto que diz muito sobre a maturidade das ferramentas nessa área. Soluções prontas que você pode comprar e conectar a um agente AI arbitrário praticamente não existem. Cada equipe tem que descobrir independentemente quais métricas refletem a qualidade de seu produto específico, como gerar e manter datasets de teste em forma atual, como interpretar resultados e integrar benchmarks no pipeline CI/CD. Bitrix24 enfatiza que sua abordagem não está vinculada a um stack específico — e talvez esta seja a parte mais valiosa de sua experiência.
A história de Martha reflete uma tendência mais ampla na indústria. À medida que os agentes AI transitam da categoria de experimentos para a categoria de ferramentas críticas para os negócios, os requisitos de confiabilidade crescem exponencialmente. Empresas como Anthropic, OpenAI e Google investem em sistemas de avaliação de modelos no nível da plataforma, mas no nível de produtos específicos, a responsabilidade pela qualidade ainda recai sobre os times de desenvolvimento. O problema é agravado pelo fato de que os usuários rapidamente perdem confiança em um assistente AI após algumas respostas falhadas, e recuperar essa confiança é significativamente mais difícil do que perdê-la.
Atenção especial é merecida pela mudança cultural por trás dessa transição. O teste manual de agentes AI não é apenas uma prática ineficiente — é uma falsa sensação de controle. Um engenheiro que testou vinte cenários de duzentos tende a pensar que o sistema funciona corretamente, quando na verdade testou apenas dez por cento da superfície. Benchmarks automáticos não eliminam completamente a incerteza, mas a tornam visível e mensurável. E o que pode ser medido pode ser melhorado.
A experiência da Bitrix24 é um sinal para toda a indústria de desenvolvimento AI em língua russa. A era em que um agente AI podia ser colocado em produção com as palavras "parece funcionar" está chegando ao fim. À frente está uma era de métricas, benchmarks e controle contínuo de qualidade. E as equipes que dominarem essas práticas primeiro obterão uma vantagem decisiva na luta pela confiança do usuário.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.