Avaliação de Modelos de IA Ficou Mais Cara que Seu Treinamento — Novo Obstáculo para Pesquisadores

Q: Qual é a fonte?

Publicado originalmente em Hugging Face Blog. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

30 de abr. de 2026. Tempo de leitura: 3 min.

Executar um benchmark de IA abrangente em 2026 custa entre $2.800 e $40.000 por execução — não é mais uma linha orçamentária ao lado do treinamento, mas uma…

Redação da Hamidun News

Monitoramento de AI · Hugging Face Blog

30 de abr. de 2026· 2 min

Processado por IA de Hugging Face Blog; editado por Hamidun News

Avaliação de Modelos de IA Ficou Mais Cara que Seu Treinamento — Novo Obstáculo para Pesquisadores — Fonte: Hugging Face Blog. Colagem: Hamidun News.

◐ Ouvir artigo

Executar uma avaliação completa de um agente de IA em 2026 custa entre $2.800 e $40.000 por execução. A EvalEval Coalition publicou um relatório extenso: benchmarking deixou de ser uma linha no orçamento ao lado do treinamento de modelos e se tornou uma barreira computacional e financeira independente — com todas as implicações para a independência da avaliação.

Números dos Benchmarks

Pesquisadores coletaram dados específicos em oito sistemas de avaliação amplamente usados:

HAL (placar de agentes abrangente) — $40.000 por 21.730 execuções em 9 modelos e 9 benchmarks
GAIA — até $2.829 por execução única sem cache
PaperBench — de $4.200 a $9.500 dependendo do protocolo
The Well (ML para tarefas de física) — ~$2.400 para arquitetura, ~$9.600 para varredura completa
MLE-Bench — ~$5.500 por seed (75 problemas Kaggle × 24 horas em GPU + API)

Uma única execução de GAIA é comparável a um orçamento anual típico de viagens para um aluno de pós-graduação. Executar três seeds em seis modelos custa aproximadamente $150.000. Alguns benchmarks exigem treinamento real — e lá, o custo computacional da avaliação excede o custo do próprio treinamento em aproximadamente cem vezes.

Por Que Testes de Agentes Não Podem Ser Comprimidos

Para benchmarks de linguagem estáticos, a compressão funciona há muito tempo: Flash-HELM reduz um teste 100–200 vezes sem perder precisão de ranking, e tinyBenchmarks reduziu MMLU de 14.000 exemplos para 100 com aproximadamente 2% de erro. Benchmarks de agentes resistem às mesmas técnicas. O custo das tarefas dentro de um único teste de agente varia por um fator de 10.000. Ainda assim, tarefas caras não produzem resultados proporcionalmente precisos: em Mind2Web, uma diferença de preço de 9× corresponde a apenas 2% de diferença de precisão. O efeito máximo de compressão é 2–3,5 vezes, duas ordens de magnitude pior do que benchmarks estáticos.

Um multiplicador adicional é a confiabilidade. O mesmo modelo em τ-bench mostrou 60% em uma execução mas apenas 25% em oito. Medição estatisticamente válida requer um mínimo de k=8 repetições, multiplicando automaticamente o custo por 8: um teste de $10.000 se torna $80.000.

"É convencionalmente acreditado que a capacidade do modelo é o fator limitante principal.

Mas avaliação mostra: o verdadeiro gargalo é confiabilidade," — EvalEval Coalition.

Verificação Independente Vira Privilégio

Quando três seeds em seis modelos custam $150.000, grupos acadêmicos são fisicamente eliminados do jogo. Apenas grandes laboratórios têm orçamentos para avaliação estatisticamente sólida — os mesmos que criam os sistemas sendo avaliados. Este é um conflito de interesse estrutural: verificação externa não desaparece porque as pessoas não querem, mas porque ninguém pode pagar.

A EvalEval Coalition propõe uma solução pragmática: parar de executar os mesmos testes repetidamente. Atualmente cada grupo começa do zero porque outros resultados estão enterrados em papers em PDF sem dados legíveis por máquina. A coalizão lançou o projeto Every Eval Ever — um repositório no Hugging Face onde resultados são submetidos com metadados completos, logs e parâmetros. Foi calculado que até reusar dados duas vezes economizaria mais do que todas as técnicas de compressão combinadas.

O Que Isso Significa

A economia da avaliação de IA foi invertida: avaliação não é mais uma linha de orçamento menor mas um custo operacional primário e instrumento de influência. Quem pode pagar por um benchmark escreve o placar. Se a verificação independente continuar ficando mais cara, a supervisão externa de sistemas de IA corre o risco de ficar completamente concentrada nas mãos dos laboratórios que os criam.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis