Habr AI→ original

Pesquisadora da UCL e de Stanford explica por que os benchmarks de AI deixaram de funcionar

Pontuações altas em benchmarks de AI dizem cada vez menos sobre utilidade real. Angela Aristidou, da UCL e de Stanford, escreve que os modelos devem ser…

Processado por IA de Habr AI; editado por Hamidun News
Pesquisadora da UCL e de Stanford explica por que os benchmarks de AI deixaram de funcionar
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Altos scores em benchmarks de IA não garantem mais que um modelo será útil no trabalho real. A pesquisadora Angela Aristidou da UCL e Stanford propõe reestruturar a própria lógica de avaliação de IA: observar não os resultados no vácuo, mas como os sistemas se comportam dentro de equipes, processos e ciclos de trabalho longos.

Por que os testes falham

Os benchmarks atuais são convenientes porque reduzem tudo a uma pergunta simples: o modelo resolveu uma tarefa isolada melhor que um humano? Essa abordagem funciona bem para xadrez, questões de exame, pequenos trechos de código ou textos com resposta unívoca. A indústria obtém rankings claros, percentuais de acurácia e tabelas comparativas bonitas.

O problema é que quase ninguém usa IA exatamente como é testada. Nas organizações, os modelos não trabalham em um ambiente estéril, mas em processos complexos com múltiplos participantes, regras internas, exceções e dados de entrada que mudam. O que importa não é apenas a velocidade e precisão da resposta, mas se a IA acelera as aprovações, ajuda a equipe a perceber erros e não cria uma nova camada de ruído operacional.

Assim, um modelo que se destaca em testes sintéticos pode se tornar um elo fraco em um ciclo de feedback real.

O Problema de Equipes Reais

Aristidou oferece um exemplo de sistemas de IA médica que formalmente exibem resultados muito fortes e até recebem aprovações regulatórias. Na prática, os médicos devem incorporar suas conclusões em padrões de relatórios locais, requisitos da clínica e lógica de tomada de decisão compartilhada. Por causa disso, uma ferramenta que economiza tempo no papel pode, na verdade, introduzir atrasos no processo real.

Isso é especialmente notável em ambientes onde as decisões não são tomadas por um único especialista, mas por uma equipe multidisciplinar. Radiologistas, oncologistas, enfermeiras e outros participantes discutem o paciente juntos, e o plano de tratamento é refinado conforme novos dados chegam. Em tal sistema, o que importa não é apenas a precisão da sugestão, mas como ela afeta a discussão coletiva.

Se um modelo provoca uma confiança prematura, aumenta a carga cognitiva ou quebra a coordenação familiar, uma pontuação alta no teste não significa muito. É assim que os projetos de IA acabam no que a autora chama de "cemitério de IA."

O que o HAIC Propõe

Em vez de avaliar um único modelo em uma tarefa única, a autora propõe a abordagem HAIC — Human-AI, Context-Specific Evaluation. Sua ideia é medir a combinação "humano + IA" em um ambiente de trabalho específico e no longo prazo. Não se trata de rejeitar completamente os testes, mas de deslocar o foco: da precisão de laboratório para o impacto organizacional real. O HAIC muda a lógica de avaliação em várias dimensões:

  • em vez de avaliar um executor individual, a equipe e todo o fluxo de trabalho são avaliados
  • em vez de um teste único, é considerado um ciclo longo de uso
  • em vez de precisão e velocidade, coordenação, resultados finais e visibilidade de erros são colocados no centro
  • em vez de uma resposta isolada, as consequências para processos e decisões vizinhos são analisadas

Essa abordagem já está sendo testada em casos práticos. Em uma rede hospitalar britânica, a pergunta não era "a IA melhora a precisão diagnóstica," mas "o que muda no trabalho de uma equipe multidisciplinar quando a IA é adicionada a ela." No setor humanitário, sistemas semelhantes foram testados por 18 meses, rastreando separadamente como as pessoas notavam e corrigiam erros do modelo. São precisamente essas observações longas que permitem entender onde guardrails são necessários e onde a tecnologia realmente ajuda.

O que Significa

O mercado está gradualmente atingindo o limite das métricas sintéticas: elas permanecem úteis para comparação básica de modelos, mas cada vez mais falham em prever o valor real da implantação. Se a abordagem HAIC se tornar generalizada, empresas e reguladores terão que avaliar IA de forma mais complexa e por mais tempo — mas com menos risco de investir em um sistema que parece bonito em benchmarks mas falha em um processo real.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…