Como parar de adivinhar e começar a medir a qualidade dos agentes de AI

Q: Qual é a fonte?

Publicado originalmente em Habr AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2 de mar. de 2026. Tempo de leitura: 3 min.

A equipe da Bitrix24 contou como, em seis meses, passou do teste manual de seu agente de AI, Marta, para um sistema automatizado de benchmarks. O problema é…

Redação da Hamidun News

Monitoramento de AI · Habr AI

2 de mar. de 2026· 3 min

Processado por IA de Habr AI; editado por Hamidun News

Como parar de adivinhar e começar a medir a qualidade dos agentes de AI — Fonte: Habr AI. Colagem: Hamidun News.

◐ Ouvir artigo

Cada equipe que colocou um agente AI em produção eventualmente enfrenta o mesmo pesadelo. Um usuário escreve para o suporte: "seu bot está falando besteira". Um desenvolvedor abre os logs, olha para o prompt, olha para a resposta — e não consegue descobrir o que exatamente deu errado. É uma regressão após o commit de ontem? Um efeito colateral da mudança de modelo? Ou apenas um caso extremo infeliz que sempre existiu? A equipe Bitrix24 passou por todos os estágios desse processo com seu agente AI Martha — e agora estão compartilhando as lições que todos que trabalham com modelos de linguagem grandes em produção deveriam aprender.

Martha é um assistente AI dentro do ecossistema Bitrix24 que interage com CRM, gerencia tarefas e responde perguntas de usuários. Nos primeiros estágios, tudo parecia simples: abrir um chat, fazer uma pergunta, olhar para a resposta com seus próprios olhos. Teste manual clássico, que funciona enquanto o agente consegue fazer dez coisas. Mas assim que a funcionalidade de Martha cresceu, essa abordagem começou a falhar. Um engenheiro não consegue fisicamente executar duzentos cenários após cada revisão de prompt. E revisões de prompts no desenvolvimento moderno de produtos AI não são exceção — são rotina diária.

O problema que a equipe descreve é de natureza sistêmica. Engenharia de prompt é inerentemente instável por natureza: a menor mudança na formulação de uma instrução pode afetar imprevisivelmente o comportamento do modelo em dezenas de contextos diferentes. Adicione a isso mudanças periódicas de versão de modelo dos provedores, atualizações de prompts do sistema, expansão do conjunto de ferramentas disponíveis para o agente — e você tem uma explosão combinatória de possíveis pontos de falha. Sem controle automático de qualidade, a equipe efetivamente trabalha às cegas, reagindo a problemas após o fato em vez de preveni-los.

A solução a que a Bitrix24 chegou foi construir um sistema completo de benchmarks. A essência da abordagem é formalizar as expectativas para o agente AI como um conjunto de cenários de teste com critérios de sucesso mensuráveis. Estes não são testes unitários no sentido clássico: as respostas do modelo de linguagem são não-determinísticas, e verificá-las quanto a correspondência exata é inútil. Em vez disso, são usadas métricas que avaliam relevância, completude, correção da invocação de ferramentas e alinhamento com o tom de comunicação. Essencialmente, a equipe está construindo um análogo automatizado de avaliação por especialistas que pode ser executado após cada alteração.

O caminho da ideia para um sistema funcionando levou cerca de meio ano — e este é um número honesto que diz muito sobre a maturidade das ferramentas nessa área. Soluções prontas que você pode comprar e conectar a um agente AI arbitrário praticamente não existem. Cada equipe tem que descobrir independentemente quais métricas refletem a qualidade de seu produto específico, como gerar e manter datasets de teste em forma atual, como interpretar resultados e integrar benchmarks no pipeline CI/CD. Bitrix24 enfatiza que sua abordagem não está vinculada a um stack específico — e talvez esta seja a parte mais valiosa de sua experiência.

A história de Martha reflete uma tendência mais ampla na indústria. À medida que os agentes AI transitam da categoria de experimentos para a categoria de ferramentas críticas para os negócios, os requisitos de confiabilidade crescem exponencialmente. Empresas como Anthropic, OpenAI e Google investem em sistemas de avaliação de modelos no nível da plataforma, mas no nível de produtos específicos, a responsabilidade pela qualidade ainda recai sobre os times de desenvolvimento. O problema é agravado pelo fato de que os usuários rapidamente perdem confiança em um assistente AI após algumas respostas falhadas, e recuperar essa confiança é significativamente mais difícil do que perdê-la.

Atenção especial é merecida pela mudança cultural por trás dessa transição. O teste manual de agentes AI não é apenas uma prática ineficiente — é uma falsa sensação de controle. Um engenheiro que testou vinte cenários de duzentos tende a pensar que o sistema funciona corretamente, quando na verdade testou apenas dez por cento da superfície. Benchmarks automáticos não eliminam completamente a incerteza, mas a tornam visível e mensurável. E o que pode ser medido pode ser melhorado.

A experiência da Bitrix24 é um sinal para toda a indústria de desenvolvimento AI em língua russa. A era em que um agente AI podia ser colocado em produção com as palavras "parece funcionar" está chegando ao fim. À frente está uma era de métricas, benchmarks e controle contínuo de qualidade. E as equipes que dominarem essas práticas primeiro obterão uma vantagem decisiva na luta pela confiança do usuário.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis