MarkTechPost→ original

Google apresentou Auto-Diagnose — sistema de IA para encontrar causas de falhas em testes de integração

Google apresentou Auto-Diagnose — uma ferramenta movida por Gemini 2.5 Flash para diagnosticar falhas em testes de integração. O sistema coleta e classifica…

Processado por IA de MarkTechPost; editado por Hamidun News
Google apresentou Auto-Diagnose — sistema de IA para encontrar causas de falhas em testes de integração
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

Google apresentou Auto-Diagnose, um sistema interno baseado em LLM que analisa os logs de testes de integração com falha, extrai automaticamente linhas-chave e publica diagnósticos diretamente na revisão de código. Para grandes equipes de engenharia, isso representa uma tentativa de eliminar um dos custos ocultos mais caros do desenvolvimento: as horas e, às vezes, dias gastos na busca manual pela causa de uma falha em dezenas de arquivos de log. O problema do Google é bastante mensurável.

Em uma pesquisa interna com 6059 desenvolvedores, o diagnóstico de falhas de testes de integração entrou no top 5 das reclamações mais frequentes sobre ferramentas de engenharia. Uma pesquisa de acompanhamento com 116 engenheiros mostrou que 38,4% dessas falhas demoravam mais de uma hora para diagnosticar, e 8,9% demoravam mais de um dia. Para testes unitários, esses números foram 2,7% e 0% respectivamente.

A razão é clara: um teste de integração quase nunca falha em um único lugar óbvio. Em um caso típico, há um driver de teste separado, um conjunto de serviços dentro do sistema sob teste, logs espalhados por diferentes componentes, uma massa de avisos e erros que não estão relacionados à causa raiz. Na pesquisa do Google, o teste com falha mediano continha 16 arquivos de log e 2801 linhas de logs.

Auto-Diagnose é integrado ao fluxo de trabalho de desenvolvimento existente. Quando um teste de integração falha, o sistema automaticamente recebe um evento, coleta logs do driver de teste e dos componentes SUT em nível INFO e acima, consolida-os em um único fluxo e ordena-os por tempo. Em seguida, junto com os metadados dos componentes, tudo isso é enviado para Gemini 2.

5 Flash. O modelo funciona sem fine-tuning em logs especiais do Google: a aposta é feita não em fine-tuning, mas em um prompt rigidamente codificado e integração ao processo. No prompt, o modelo é forçado a seguir etapas: encontrar seções de log, identificar o componente onde a falha ocorreu, verificar o contexto e apenas então formular uma conclusão.

O ponto-chave é uma proibição de adivinhação. Se os logs não contêm linhas do componente exato que falhou ao iniciar ou ficar saudável, o modelo não deve especular, mas responder diretamente que os dados são insuficientes. Depois disso, a resposta é formatada em um formato padrão e publicada no Critique, o sistema interno de revisão de código do Google, onde o desenvolvedor imediatamente vê a conclusão, as etapas da investigação e as linhas de log mais relevantes.

Pelos números, o sistema parece não como um protótipo de laboratório, mas como uma ferramenta interna realmente testada. Na verificação manual em 71 falhas reais de 39 equipes, Auto-Diagnose identificou corretamente a causa raiz em 64 casos, uma precisão de 90,14%. Depois disso, o Google o lançou para todas as falhas de integração em mudanças de código em toda a empresa, começando em maio de 2025.

Durante esse tempo, o sistema operou em 52.635 testes únicos, 224.782 execuções, 91.

130 mudanças de código e 22.962 autores. O tempo mediano para publicar um diagnóstico na revisão de código foi de 56 segundos, e o percentil 90 foi de 346 segundos, significando que o resultado geralmente aparece antes que o engenheiro mude completamente para outra tarefa.

Em média, uma execução consome 110.617 tokens de entrada e gera 5.962 tokens de saída.

O feedback também parece bom: de 517 avaliações de 437 desenvolvedores, a proporção de marcas "Not helpful" foi de 5,8%, abaixo do limite interno do Google de 10% para essas ferramentas, e em termos de utilidade, Auto-Diagnose ficou em 14º lugar de 370 sistemas que publicam descobertas no Critique. Há também um benefício colateral importante. Sete erros da avaliação manual se mostraram não como uma falha do modelo em si, mas problemas com a infraestrutura de logging: em alguns casos, os logs do driver de teste não foram salvos após um crash, em outros, os logs do próprio componente com falha estavam faltando.

Respostas similares no espírito de "precisamos de mais dados" mais tarde ajudaram a identificar cerca de 20 problemas de infraestrutura adicionais. Portanto, o significado principal do Auto-Diagnose não é apenas que o Google está acelerando a investigação de falhas de teste. A empresa está demonstrando um padrão mais prático para usar LLMs no desenvolvimento: não pedir ao modelo para consertar código às cegas, mas incorporá-lo em um ponto estreito do processo, dando-lhe regras rígidas para recusar especulação e retornando resultados diretamente para onde o engenheiro já está trabalhando.

Para grandes equipes, esse é talvez um cenário mais valioso do que mais um "assistente de codificação AI", porque reduz o tempo para entender a causa da falha, e esse é precisamente o que mais frequentemente atrasa o lançamento.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…