Habr AI→ original

DeepMind a proposé dix échelles cognitives pour mesurer les progrès vers l’AGI

Google DeepMind a publié "Measuring Progress Toward AGI" — une suite à la classification des niveaux d’AGI de 2023. Au lieu d’un classement unique, le…

Traité par IA depuis Habr AI ; édité par Hamidun News
DeepMind a proposé dix échelles cognitives pour mesurer les progrès vers l’AGI
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Google DeepMind a publié un article intitulé "Measuring Progress Toward AGI" — une tentative de fournir à l'industrie un outil pour mesurer véritablement les progrès vers AGI, plutôt qu'une autre classification sans moyen de la vérifier.

D'où venait le problème

Il y a près de trois ans, DeepMind a publié "Levels of AGI" — un système de cinq niveaux d'intelligence (du initial au surhumain) et six niveaux d'autonomie (du simple outil à l'agent entièrement autonome). L'analogie avec les niveaux de conduite autonome s'est avérée judicieuse : structurée, visuelle, commode pour expliquer aux investisseurs et aux journalistes. L'industrie a obtenu un vocabulaire commun — quelque chose comme une terminologie unifiée pour parler d'AGI.

Mais la classification a révélé un défaut fondamental : il n'y avait aucun outil pour vérifier où se trouvait réellement un système donné. Chaque entreprise pouvait appeler son modèle « niveau 2 » ou « niveau 3 », et personne n'avait le moyen de le contredire. « AGI » est devenu une étiquette de marketing — pratique pour les communiqués de presse et l'attraction d'investissements, mais totalement impropre à la science.

Ce nouveau travail tente de résoudre précisément ce problème.

Dix échelles au lieu d'un seul score

L'article, publié en mars 2026, propose une approche fondamentalement différente. Au lieu d'une classification générale unique — dix échelles séparées, chacune mesurant un aspect spécifique des capacités cognitives. De plus, les échelles sont indépendantes : un système peut obtenir un résultat élevé en raisonnement mais faible en adaptation à de nouvelles tâches — et cette discordance sera clairement visible, non cachée derrière une valeur moyennée. Cette approche fournit un portrait multidimensionnel d'un système, pas un seul chiffre.

La différence fondamentale par rapport aux benchmarks conventionnels : les échelles sont construites non sur des ensembles de données et des ensembles de problèmes, mais sur des outils de psychologie cognitive — une science qui a étudié pendant des décennies l'intelligence chez les vraies personnes et développé des méthodologies résistantes aux effets d'entraînement.

Parmi les aspects mesurés :

  • Mémoire de travail et rétention du contexte
  • Planification et raisonnement multi-étapes
  • Transfert de connaissances vers de nouveaux domaines
  • Apprentissage à partir d'un petit nombre d'exemples (few-shot)
  • Métacognition — compréhension des limites de ses propres connaissances
  • Raisonnement causal
  • Adaptation à des données en dehors de la distribution d'entraînement

Les auteurs positionnent le cadre comme un point de départ pour la discussion, pas un standard final. La liste des échelles est ouverte à l'expansion.

Pourquoi c'est plus important que les benchmarks

Jusqu'à présent, les progrès en IA ont été mesurés indirectement : MMLU, HumanEval, ARC-Challenge, GSM8K. Le problème est que les modèles ont appris à délibérément "surappendre" sur des benchmarks spécifiques. Un score élevé sur MMLU a cessé il y a longtemps d'être un indicateur fiable du vrai raisonnement — et tout le monde dans l'industrie le sait, mais les standards ne changent pas. L'approche cognitivo-psychologique est nettement plus difficile à tromper. Si un modèle ne peut pas généraliser à des tâches fondamentalement nouvelles — aucun entraînement supplémentaire sur l'ensemble de test ne le cachera. Les méthodologies développées pour mesurer l'intelligence chez les humains sont par leur nature même résistantes à la « manipulation » du système.

Pour les investisseurs, les acheteurs corporatifs d'IA et les régulateurs, cela signifie potentiellement la fin de l'ère où n'importe quel laboratoire pouvait annoncer une « percée vers AGI » sans possibilité de vérification indépendante. Des échelles mesurables communes créent la comparabilité entre les systèmes de différentes entreprises, et donc — l'imputabilité.

Ce que cela signifie

DeepMind fait évoluer la conversation sur AGI de « nous avons le niveau N » à « voici précisément comment cela peut être mesuré ». Ce n'est pas une réponse sur les délais d'AGI et ce n'est pas une garantie de consensus — différents laboratoires interpréteront les échelles différemment. Mais c'est la première étape sérieuse vers des normes d'évaluation communes, construites sur la science plutôt que sur le marketing.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…