Google DeepMind a proposé un cadre cognitif pour mesurer les progrès vers l’AGI
Google DeepMind a proposé une nouvelle manière de parler des progrès vers l’AGI — à travers un ensemble de capacités cognitives plutôt que des benchmarks…
Traité par IA depuis DeepMind Blog ; édité par Hamidun News
Google DeepMind a proposé un framework cognitif pour mesurer la progression vers AGI non pas par des benchmarks individuels, mais par un ensemble de capacités cognitives. Parallèlement, l'entreprise a lancé un hackathon sur Kaggle pour que les chercheurs développent des tests pratiques pour un tel système d'évaluation.
Pourquoi un framework est nécessaire
Google DeepMind part d'un problème simple : pratiquement tous les grands laboratoires parlent d'AGI, mais il n'existe toujours pas de moyen généralement accepté de mesurer à quel point les systèmes s'en sont rapprochés. Les tests individuels en mathématiques, code ou génération de texte ne montrent que des fragments de l'image globale. Si l'objectif est de comprendre le niveau général d'intelligence d'un modèle, alors la mesure doit être plus large qu'un seul ensemble de tâches ou un seul scénario de démonstration réussi.
Dans un nouveau travail intitulé Measuring Progress Toward AGI: A Cognitive Taxonomy, l'équipe propose de s'appuyer sur la science cognitive, la psychologie et les neurosciences. La logique est la suivante : si AGI est comprise comme une intelligence suffisamment générale, elle doit être évaluée par le biais de fonctions cognitives de base, pas seulement par le biais de compétences appliquées. Ce n'est pas une échelle « AGI ou pas AGI » toute faite, mais un cadre scientifique qui peut être appliqué à des tests spécifiques.
«
La science cognitive est une partie importante du puzzle », écrivent les auteurs.
Ce que comprend l'approche
Au cœur du framework se trouvent dix capacités qui, selon l'hypothèse de DeepMind, sont importantes pour l'intelligence générale des systèmes d'IA. La liste comprend la perception, la génération, l'attention, l'apprentissage, la mémoire, le raisonnement, la métacognition, les fonctions exécutives, la résolution de problèmes et la cognition sociale. Cet ensemble est important car il couvre non seulement les forces connues des modèles modernes, telles que la génération de texte ou les chaînes logiques, mais aussi des choses plus complexes—par exemple, la capacité à suivre ses propres erreurs, à basculer flexiblement entre les objectifs et à travailler correctement avec le contexte social.
Pour transformer cette taxonomie en outil mesurable, DeepMind propose un protocole en trois étapes. D'abord, les systèmes d'IA doivent être exécutés à travers un large ensemble de tâches cognitives pour chaque capacité, en utilisant des ensembles de test retenus pour réduire le risque de contamination des données. Ensuite, pour les mêmes tâches, un niveau de référence humain est collecté à partir d'un échantillon représentatif sur le plan démographique d'adultes.
Après cela, les résultats des modèles sont comparés non pas à un « score minimum » abstrait, mais à la distribution des résultats humains pour chaque capacité. L'idée ici est que la comparaison avec les humains ne devrait pas être un slogan général, mais un empirisme minutieux. Un modèle peut être très fort en raisonnement et en mémoire, mais significativement plus faible dans l'apprentissage de nouvelles instructions ou dans l'interprétation sociale.
Dans ce cas, la conversation sur la progression vers AGI devient plus substantielle : elle montre non seulement où le système impressionne, mais aussi exactement où il a des lacunes structurelles.
Hackathon sur Kaggle
DeepMind ne se limite pas à une seule publication. Avec Kaggle, l'entreprise a lancé le hackathon Measuring progress toward AGI: Cognitive abilities pour aider la communauté à construire les évaluations manquantes en pratique. Les participants sont invités à utiliser la nouvelle plateforme Kaggle Community Benchmarks et à tester leurs idées sur une gamme de modèles de pointe. L'accent est mis sur les domaines où l'écart dans les évaluations est actuellement le plus notable.
- Apprentissage
- Métacognition
- Attention
- Fonctions exécutives
- Cognition sociale
Le fonds des prix s'élève à $200.000. Selon les règles de DeepMind, les deux meilleures œuvres dans chacune des cinq catégories recevront $10.000 chacune, et quatre autres soumissions fortes indépendamment de la catégorie recevront $25.000 chacune. Les soumissions sont ouvertes du 17 mars 2026 au 16 avril 2026, et l'entreprise promet d'annoncer les résultats le 1er juin 2026. C'est un détail important : DeepMind ne publie pas simplement le framework comme une théorie, mais essaie rapidement de construire un écosystème de vérifications et d'expériences externes autour de celui-ci.
Ce que cela signifie
Google DeepMind propose de considérer la progression en IA non pas comme une course aux records individuels, mais comme une comparaison systématique des profils cognitifs des modèles avec le niveau humain. Si l'approche prend racine, l'industrie aura un langage plus clair pour parler de « progression vers AGI »—avec une ventilation par capacité, des lacunes compréhensibles et des tests reproductibles, plutôt que simplement des annonces fracassantes du prochain grand pas en avant.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.