Avaliação de Modelos de IA Ficou Mais Cara que Seu Treinamento — Novo Obstáculo para Pesquisadores
Executar um benchmark de IA abrangente em 2026 custa entre $2.800 e $40.000 por execução — não é mais uma linha orçamentária ao lado do treinamento, mas uma…
Processado por IA de Hugging Face Blog; editado por Hamidun News
Executar uma avaliação completa de um agente de IA em 2026 custa entre $2.800 e $40.000 por execução. A EvalEval Coalition publicou um relatório extenso: benchmarking deixou de ser uma linha no orçamento ao lado do treinamento de modelos e se tornou uma barreira computacional e financeira independente — com todas as implicações para a independência da avaliação.
Números dos Benchmarks
Pesquisadores coletaram dados específicos em oito sistemas de avaliação amplamente usados:
- HAL (placar de agentes abrangente) — $40.000 por 21.730 execuções em 9 modelos e 9 benchmarks
- GAIA — até $2.829 por execução única sem cache
- PaperBench — de $4.200 a $9.500 dependendo do protocolo
- The Well (ML para tarefas de física) — ~$2.400 para arquitetura, ~$9.600 para varredura completa
- MLE-Bench — ~$5.500 por seed (75 problemas Kaggle × 24 horas em GPU + API)
Uma única execução de GAIA é comparável a um orçamento anual típico de viagens para um aluno de pós-graduação. Executar três seeds em seis modelos custa aproximadamente $150.000. Alguns benchmarks exigem treinamento real — e lá, o custo computacional da avaliação excede o custo do próprio treinamento em aproximadamente cem vezes.
Por Que Testes de Agentes Não Podem Ser Comprimidos
Para benchmarks de linguagem estáticos, a compressão funciona há muito tempo: Flash-HELM reduz um teste 100–200 vezes sem perder precisão de ranking, e tinyBenchmarks reduziu MMLU de 14.000 exemplos para 100 com aproximadamente 2% de erro. Benchmarks de agentes resistem às mesmas técnicas. O custo das tarefas dentro de um único teste de agente varia por um fator de 10.000. Ainda assim, tarefas caras não produzem resultados proporcionalmente precisos: em Mind2Web, uma diferença de preço de 9× corresponde a apenas 2% de diferença de precisão. O efeito máximo de compressão é 2–3,5 vezes, duas ordens de magnitude pior do que benchmarks estáticos.
Um multiplicador adicional é a confiabilidade. O mesmo modelo em τ-bench mostrou 60% em uma execução mas apenas 25% em oito. Medição estatisticamente válida requer um mínimo de k=8 repetições, multiplicando automaticamente o custo por 8: um teste de $10.000 se torna $80.000.
"É convencionalmente acreditado que a capacidade do modelo é o fator limitante principal.
Mas avaliação mostra: o verdadeiro gargalo é confiabilidade," — EvalEval Coalition.
Verificação Independente Vira Privilégio
Quando três seeds em seis modelos custam $150.000, grupos acadêmicos são fisicamente eliminados do jogo. Apenas grandes laboratórios têm orçamentos para avaliação estatisticamente sólida — os mesmos que criam os sistemas sendo avaliados. Este é um conflito de interesse estrutural: verificação externa não desaparece porque as pessoas não querem, mas porque ninguém pode pagar.
A EvalEval Coalition propõe uma solução pragmática: parar de executar os mesmos testes repetidamente. Atualmente cada grupo começa do zero porque outros resultados estão enterrados em papers em PDF sem dados legíveis por máquina. A coalizão lançou o projeto Every Eval Ever — um repositório no Hugging Face onde resultados são submetidos com metadados completos, logs e parâmetros. Foi calculado que até reusar dados duas vezes economizaria mais do que todas as técnicas de compressão combinadas.
O Que Isso Significa
A economia da avaliação de IA foi invertida: avaliação não é mais uma linha de orçamento menor mas um custo operacional primário e instrumento de influência. Quem pode pagar por um benchmark escreve o placar. Se a verificação independente continuar ficando mais cara, a supervisão externa de sistemas de IA corre o risco de ficar completamente concentrada nas mãos dos laboratórios que os criam.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.