IBM e Artificial Analysis criam benchmark: agentes de IA fracassam em tarefas de TI
Grandes modelos falharam no novo teste. IBM e Artificial Analysis apresentaram ITBench-AA — o primeiro benchmark para agentes de IA em ambientes corporativos de

IBM e Artificial Analysis apresentaram ITBench-AA — o primeiro benchmark abrangente para avaliar a capacidade de agentes de IA em resolver tarefas reais em ambientes de TI corporativos. Os resultados são desanimadores: modelos líderes pontuaram menos de 50%. Isso significa que o sonho de engenheiros de IA autônomos continua sendo apenas um sonho.
O que o ITBench-AA testou
O benchmark incluiu cenários reais de operações de TI: configuração de infraestruturas de rede, gerenciamento de bancos de dados, depuração de erros em sistemas em produção, implantação de aplicações, monitoramento e otimização de recursos. Estas não são tarefas escritas simples onde você precisa fornecer a resposta correta. Aqui, a IA deve agir como um engenheiro de pleno direito: interagir com interfaces de sistemas, analisar logs de erro, tomar decisões sob incerteza, ajustar a abordagem se a primeira tentativa não funcionou.
Modelos líderes foram testados: GPT-4, Claude 3 Opus, Gemini Ultra e outros. Os resultados foram aproximadamente os mesmos: todos tiveram desempenho em torno de 45–50%. Ainda mais notavelmente, ao tentar executar procedimentos complexos de múltiplas etapas, os agentes frequentemente ficavam presos ou cometiam erros críticos.
Qual é o verdadeiro problema
A figura de 50% não é apenas um resultado baixo. É um sinal de limitações fundamentais. O trabalho de TI requer não apenas conhecimento extenso, mas também qualidades que a IA atualmente possui de forma inconsistente:
- Impecabilidade — um erro pode derrubar um sistema para milhares de usuários
- Pensamento sequencial — procedimentos de múltiplas etapas exigem adesão rigorosa à lógica
- Compreensão contextual — saber não apenas o que fazer, mas por que cada etapa é crítica
- Adaptação em tempo real — quando instruções padrão não se adequam devido às especificidades do ambiente
- Responsabilidade — a capacidade de recuar e pedir ajuda humana quando incerto
Agentes em sua forma atual são mais sistemas que podem ajudar, mas exigem supervisão constante e validação de resultados.
Redefinição de expectativas
ITBench-AA já está influenciando as estratégias das empresas. A ilusão de "trabalhadores digitais que substituirão o departamento de TI em um mês" está desaparecendo. Em vez disso, a demanda está crescendo por soluções mais realistas: parceria entre humanos e IA, onde o agente assume trabalho rotineiro (atualizações de configuração, monitoramento básico, logging), e o engenheiro mantém controle sobre operações críticas.
O benchmark também cria pela primeira vez um padrão universalmente reconhecido para avaliar agentes. ITBench-AA se tornará uma ferramenta para desenvolvedores de modelos entenderem no que trabalhar nas próximas versões.
O que isso significa
A IA está evoluindo, mas a evolução está se movendo mais lentamente do que promessas de startups. Boas notícias para especialistas em TI: sua experiência continua sendo um recurso escasso. Para as empresas, este é um sinal: a automação completa de tarefas de TI não é um projeto para um ou dois anos. Para desenvolvedores de modelos, é um roteiro específico para melhorias.