Humanity's Last Exam: Por que o principal benchmark de IA do CAIS é chamado de distração
Humanity's Last Exam — 3.000 perguntas de nível PhD do Center for AI Safety e Scale AI — se tornou o benchmark de IA mais complexo de 2025. Os melhores…
Processado por IA de KDnuggets; editado por Hamidun News
O benchmark Humanity's Last Exam (HLE) tornou-se uma das ferramentas de avaliação de IA mais discutidas desde sua publicação em janeiro de 2025 — e simultaneamente uma das mais criticadas. Os analistas do KDnuggets coletaram um espectro de opiniões de especialistas e chegaram à conclusão: o teste é mais provável que distraia a comunidade do que é importante do que forneça um referencial útil.
O que é Humanity's Last Exam
O HLE foi criado em conjunto pela organização sem fins lucrativos Center for AI Safety (CAIS) e pela Scale AI. O benchmark contém 3000 questões em nível de PhD em mais de 100 disciplinas acadêmicas: matemática, biologia molecular, línguas clássicas, história da ciência e dezenas de outros campos. As questões foram elaboradas e verificadas por centenas de professores e estudantes de pós-graduação em todo o mundo.
Parâmetros principais:
- Data de lançamento — janeiro de 2025
- Autores — Center for AI Safety e Scale AI
- Volume — 3000 questões, 100+ disciplinas
- Melhor resultado no lançamento — aproximadamente 18% para OpenAI o3
- GPT-4o — aproximadamente 3%, Claude 3.5 Sonnet — aproximadamente 8%
- As questões foram elaboradas e verificadas por centenas de cientistas
Os autores buscavam um objetivo claro: demonstrar que os modelos atuais ainda estão longe de alcançar o nível de especialistas humanos nas tarefas cognitivas mais complexas. Em 2024–2025, demonstrações públicas de IA frequentemente criavam a ilusão de uma AGI iminente — o HLE tornou-se um contraargumento: "vejam como ainda temos muito a percorrer."
Por que o HLE é considerado uma distração
A principal crítica dos detratores é a irrelevância. O teste verifica o conhecimento de fatos acadêmicos raros: teoremas pouco conhecidos de dois séculos atrás, citações exatas de textos em sânscrito, reações bioquímicas específicas. Uma pontuação baixa de um modelo em tal teste não significa que ele escreve código mal, analisa dados mal, sintetiza pesquisas mal ou ajuda mal no diagnóstico médico.
O segundo argumento é a Lei de Goodhart, bem conhecida na ciência: uma vez que uma métrica se torna um objetivo, ela deixa de ser uma medida confiável. Se os principais laboratórios de IA começarem — explícita ou implicitamente — a otimizar modelos para HLE, as pontuações aumentarão sem crescimento real na utilidade dos produtos. Isso é exatamente o que aconteceu com MMLU e vários outros benchmarks anteriores.
"Precisamos de testes que meçam quanto a IA me ajuda a trabalhar
melhor — não quanto bem ela conhece obscuridades acadêmicas."
A terceira camada de crítica diz respeito à transparência: as questões do HLE são classificadas, o que torna a reprodução independente dos resultados e a auditoria externa extremamente difíceis.
O que os apoiadores do HLE dizem
Os defensores do benchmark apelam para sua intenção original: o HLE não pretendia medir a utilidade do produto. Sua tarefa é medir o teto dos sistemas atuais em áreas cognitivamente complexas onde a experiência humana ainda não foi reproduzida. Dessa perspectiva, o teste teve sucesso: temperou parte do entusiasmo e forneceu a jornalistas, investidores e reguladores um argumento claro contra declarações prematuras de AGI.
Além disso, os criadores apontam: testes extremamente difíceis criam uma "margem de segurança." Quando modelos começarem a pontuar 50–70% no HLE, isso será um sinal de alerta genuíno — não ruído de marketing.
O que isso significa
Humanity's Last Exam cumpriu sua primeira tarefa — mostrou os limites dos sistemas de IA atuais em tarefas academicamente complexas. Mas como um referencial de progresso de longo prazo, ele levanta dúvidas justificadas: otimizar para obscuridades acadêmicas não leva à utilidade real. A avaliação útil do progresso da IA requer benchmarks que testem cenários reais — escrita de código, análise de dados, assistência médica, análise jurídica. Enquanto a seleção de benchmarks permanecer acadêmica, a discussão sobre "verdadeira capacidade de IA" corre o risco de girar em seu próprio vácuo.
Perguntas Frequentes
Que resultado OpenAI o3 alcançou no Humanity's Last Exam?
De acordo com o lançamento de janeiro de 2025, OpenAI o3 pontuou aproximadamente 18% de respostas corretas — o melhor resultado entre os modelos testados no momento da publicação. A maioria dos outros sistemas principais, incluindo GPT-4o e Claude 3.5 Sonnet, permaneceu na faixa de 3–8%.
Quem criou o benchmark HLE e por quê?
O benchmark foi desenvolvido conjuntamente pelo Center for AI Safety (CAIS) e Scale AI. Os autores objetivavam demonstrar que os sistemas de IA modernos ainda não alcançaram o nível dos melhores especialistas humanos em tarefas cognitivas complexas — e moderar expectativas inflacionadas em torno da AGI.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.