Pesquisadora da UCL e de Stanford explica por que os benchmarks de AI deixaram de funcionar
Pontuações altas em benchmarks de AI dizem cada vez menos sobre utilidade real. Angela Aristidou, da UCL e de Stanford, escreve que os modelos devem ser…
Processado por IA de Habr AI; editado por Hamidun News
Altos scores em benchmarks de IA não garantem mais que um modelo será útil no trabalho real. A pesquisadora Angela Aristidou da UCL e Stanford propõe reestruturar a própria lógica de avaliação de IA: observar não os resultados no vácuo, mas como os sistemas se comportam dentro de equipes, processos e ciclos de trabalho longos.
Por que os testes falham
Os benchmarks atuais são convenientes porque reduzem tudo a uma pergunta simples: o modelo resolveu uma tarefa isolada melhor que um humano? Essa abordagem funciona bem para xadrez, questões de exame, pequenos trechos de código ou textos com resposta unívoca. A indústria obtém rankings claros, percentuais de acurácia e tabelas comparativas bonitas.
O problema é que quase ninguém usa IA exatamente como é testada. Nas organizações, os modelos não trabalham em um ambiente estéril, mas em processos complexos com múltiplos participantes, regras internas, exceções e dados de entrada que mudam. O que importa não é apenas a velocidade e precisão da resposta, mas se a IA acelera as aprovações, ajuda a equipe a perceber erros e não cria uma nova camada de ruído operacional.
Assim, um modelo que se destaca em testes sintéticos pode se tornar um elo fraco em um ciclo de feedback real.
O Problema de Equipes Reais
Aristidou oferece um exemplo de sistemas de IA médica que formalmente exibem resultados muito fortes e até recebem aprovações regulatórias. Na prática, os médicos devem incorporar suas conclusões em padrões de relatórios locais, requisitos da clínica e lógica de tomada de decisão compartilhada. Por causa disso, uma ferramenta que economiza tempo no papel pode, na verdade, introduzir atrasos no processo real.
Isso é especialmente notável em ambientes onde as decisões não são tomadas por um único especialista, mas por uma equipe multidisciplinar. Radiologistas, oncologistas, enfermeiras e outros participantes discutem o paciente juntos, e o plano de tratamento é refinado conforme novos dados chegam. Em tal sistema, o que importa não é apenas a precisão da sugestão, mas como ela afeta a discussão coletiva.
Se um modelo provoca uma confiança prematura, aumenta a carga cognitiva ou quebra a coordenação familiar, uma pontuação alta no teste não significa muito. É assim que os projetos de IA acabam no que a autora chama de "cemitério de IA."
O que o HAIC Propõe
Em vez de avaliar um único modelo em uma tarefa única, a autora propõe a abordagem HAIC — Human-AI, Context-Specific Evaluation. Sua ideia é medir a combinação "humano + IA" em um ambiente de trabalho específico e no longo prazo. Não se trata de rejeitar completamente os testes, mas de deslocar o foco: da precisão de laboratório para o impacto organizacional real. O HAIC muda a lógica de avaliação em várias dimensões:
- em vez de avaliar um executor individual, a equipe e todo o fluxo de trabalho são avaliados
- em vez de um teste único, é considerado um ciclo longo de uso
- em vez de precisão e velocidade, coordenação, resultados finais e visibilidade de erros são colocados no centro
- em vez de uma resposta isolada, as consequências para processos e decisões vizinhos são analisadas
Essa abordagem já está sendo testada em casos práticos. Em uma rede hospitalar britânica, a pergunta não era "a IA melhora a precisão diagnóstica," mas "o que muda no trabalho de uma equipe multidisciplinar quando a IA é adicionada a ela." No setor humanitário, sistemas semelhantes foram testados por 18 meses, rastreando separadamente como as pessoas notavam e corrigiam erros do modelo. São precisamente essas observações longas que permitem entender onde guardrails são necessários e onde a tecnologia realmente ajuda.
O que Significa
O mercado está gradualmente atingindo o limite das métricas sintéticas: elas permanecem úteis para comparação básica de modelos, mas cada vez mais falham em prever o valor real da implantação. Se a abordagem HAIC se tornar generalizada, empresas e reguladores terão que avaliar IA de forma mais complexa e por mais tempo — mas com menos risco de investir em um sistema que parece bonito em benchmarks mas falha em um processo real.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.