KDnuggets→ original

Humanity's Last Exam : Pourquoi le principal benchmark IA du CAIS est considéré comme une distraction

Humanity's Last Exam — 3 000 questions de niveau doctorat du Center for AI Safety et Scale AI — est devenu le benchmark IA le plus complexe de 2025. Les…

Traité par IA depuis KDnuggets ; édité par Hamidun News
Humanity's Last Exam : Pourquoi le principal benchmark IA du CAIS est considéré comme une distraction
Source : KDnuggets. Collage: Hamidun News.
◐ Écouter l'article

Le benchmark Humanity's Last Exam (HLE) est devenu l'un des outils d'évaluation de l'IA les plus discutés depuis sa publication en janvier 2025 — et simultanément l'un des plus critiqués. Les analystes de KDnuggets ont collecté un spectre d'opinions d'experts et ont conclu : le test risque plutôt de détourner la communauté de ce qui importe que de fournir un repère utile.

Qu'est-ce que Humanity's Last Exam

Le HLE a été créé conjointement par l'organisation à but non lucratif Center for AI Safety (CAIS) et Scale AI. Le benchmark contient 3000 questions au niveau doctorat dans plus de 100 disciplines académiques : mathématiques, biologie moléculaire, langues classiques, histoire des sciences et des dizaines d'autres domaines. Les questions ont été compilées et vérifiées par des centaines de professeurs et d'étudiants diplômés du monde entier.

Paramètres clés :

  • Date de lancement — janvier 2025
  • Auteurs — Center for AI Safety et Scale AI
  • Volume — 3000 questions, 100+ disciplines
  • Meilleur résultat au lancement — environ 18% pour OpenAI o3
  • GPT-4o — environ 3%, Claude 3.5 Sonnet — environ 8%
  • Les questions ont été compilées et vérifiées par des centaines de scientifiques

Les auteurs poursuivaient un objectif compréhensible : démontrer que les modèles actuels sont encore loin de atteindre le niveau des experts humains dans les tâches cognitives les plus complexes. En 2024–2025, les démonstrations publiques d'IA créaient souvent l'illusion d'une AGI imminente — le HLE est devenu un contre-argument : « regardez à quel point nous avons encore du chemin à parcourir. »

Pourquoi HLE est considéré comme une distraction

La principale critique des détracteurs est l'irrélevance. Le test vérifie la connaissance de faits académiques rares : théorèmes peu connus d'il y a deux siècles, citations exactes de textes sanskrits, réactions biochimiques spécifiques. Un faible score d'un modèle à un tel test ne signifie pas qu'il écrit mal le code, analyse mal les données, synthétise mal les recherches ou aide mal au diagnostic médical.

Le deuxième argument est la loi de Goodhart, bien connue en science : dès qu'une mesure devient un objectif, elle cesse d'être une mesure fiable. Si les principaux laboratoires d'IA commencent — explicitement ou implicitement — à optimiser les modèles pour HLE, les scores augmenteront sans croissance réelle de l'utilité des produits. C'est exactement ce qui s'est passé avec MMLU et plusieurs autres benchmarks avant lui.

«

Nous avons besoin de tests qui mesurent combien l'IA m'aide à mieux travailler — pas à quel point elle connaît bien les obscurités académiques. »

La troisième couche de critique concerne la transparence : les questions du HLE sont classifiées, ce qui rend la reproduction indépendante des résultats et l'audit externe extrêmement difficiles.

Ce que disent les partisans du HLE

Les défenseurs du benchmark en appellent à son intention initiale : HLE ne prétendait pas mesurer l'utilité du produit. Sa tâche est de mesurer le plafond des systèmes actuels dans les domaines cognittivement complexes où l'expertise humaine n'a pas encore été reproduite. De ce point de vue, le test a réussi : il a tempéré une partie du battage médiatique et a fourni aux journalistes, investisseurs et régulateurs un argument clair contre les déclarations prématurées d'AGI.

De plus, les créateurs soulignent : les tests extrêmement difficiles créent une « marge de sécurité. » Lorsque les modèles commenceront à obtenir 50–70% au HLE, ce sera un véritable signal d'alerte — et non du bruit marketing.

Qu'est-ce que cela signifie

Humanity's Last Exam a rempli sa première tâche — il a montré les limites des systèmes d'IA actuels dans les tâches académiquement complexes. Mais en tant que repère de progrès à long terme, il soulève des doutes justifiés : optimiser pour les obscurités académiques ne mène pas à une utilité réelle. L'évaluation utile du progrès de l'IA nécessite des benchmarks qui testent des scénarios réels — écriture de code, analyse de données, assistance médicale, analyse juridique. Tant que la sélection des benchmarks reste académique, la discussion sur « la véritable capacité de l'IA » risque de tourner en rond dans le vide.

Questions Fréquemment Posées

Quel résultat

OpenAI o3 a-t-elle obtenu au Humanity's Last Exam ?

Selon la version de janvier 2025, OpenAI o3 a obtenu environ 18% de réponses correctes — le meilleur résultat parmi les modèles testés au moment de la publication. La plupart des autres systèmes majeurs, y compris GPT-4o et Claude 3.5 Sonnet, sont restés dans la fourchette 3–8%.

Qui a créé le benchmark HLE et pourquoi ?

Le benchmark a été développé conjointement par Center for AI Safety (CAIS) et Scale AI. Les auteurs visaient à démontrer que les systèmes d'IA modernes n'ont pas encore atteint le niveau des meilleurs spécialistes humains dans les tâches cognitives complexes — et à tempérer les attentes exagérées autour de l'AGI.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…