DeepMind propuso diez escalas cognitivas para medir el progreso hacia la AGI

Q: ¿Cuál es la fuente?

Publicado originalmente en Habr AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

30 abr 2026. Tiempo de lectura: 2 min.

Google DeepMind publicó "Measuring Progress Toward AGI" — una continuación de la clasificación de niveles de AGI de 2023. En lugar de una calificación única…

Redacción de Hamidun News

Monitoreo de AI · Habr AI

30 abr 2026· 2 min

Procesado por IA desde Habr AI; editado por Hamidun News

DeepMind propuso diez escalas cognitivas para medir el progreso hacia la AGI — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Google DeepMind ha publicado un artículo titulado "Measuring Progress Toward AGI" — un intento de proporcionar a la industria una herramienta para medir genuinamente el progreso hacia AGI, en lugar de otra clasificación sin forma de verificarla.

De dónde vino el problema

Hace casi tres años, DeepMind publicó "Levels of AGI" — un sistema de cinco niveles de inteligencia (desde el inicial hasta el sobrehumano) y seis niveles de autonomía (desde herramienta simple hasta agente completamente autónomo). La analogía con los niveles de conducción autónoma resultó acertada: estructurada, visual, conveniente para explicar a inversores y periodistas. La industria obtuvo un vocabulario común — algo así como una terminología unificada para hablar sobre AGI.

Pero la clasificación reveló un defecto fundamental: no había herramienta para verificar dónde se encontraba realmente cualquier sistema dado. Cada empresa podría llamar a su modelo "nivel 2" o "nivel 3", y nadie tenía forma de refutarlo. "AGI" se convirtió en una etiqueta de marketing — conveniente para comunicados de prensa y atracción de inversiones, pero completamente inconveniente para la ciencia.

Este nuevo trabajo intenta resolver precisamente este problema.

Diez escalas en lugar de una puntuación única

El artículo, publicado en marzo de 2026, propone un enfoque fundamentalmente diferente. En lugar de una clasificación general única — diez escalas separadas, cada una midiendo un aspecto específico de las capacidades cognitivas. Además, las escalas son independientes: un sistema puede mostrar un resultado alto en razonamiento pero bajo en adaptación a nuevas tareas — y esta discrepancia será claramente visible, no oculta detrás de un valor promediado. Este enfoque proporciona un retrato multidimensional de un sistema, no un único número.

La diferencia fundamental del benchmarking convencional: las escalas se construyen no en conjuntos de datos y conjuntos de problemas, sino en herramientas de psicología cognitiva — una ciencia que durante décadas ha investigado la inteligencia en personas reales y desarrollado metodologías resistentes a los efectos del entrenamiento.

Entre los aspectos medidos:

Memoria de trabajo y retención de contexto
Planificación y razonamiento de múltiples pasos
Transferencia de conocimiento a nuevos dominios
Aprendizaje a partir de un pequeño número de ejemplos (few-shot)
Meta-cognición — comprensión de los límites del propio conocimiento
Razonamiento causal
Adaptación a datos fuera de la distribución de entrenamiento

Los autores posicionan el marco como un punto de partida para la discusión, no como un estándar final. La lista de escalas está abierta a ampliación.

Por qué esto importa más que los benchmarks

Hasta ahora, el progreso en IA se ha medido indirectamente: MMLU, HumanEval, ARC-Challenge, GSM8K. El problema es que los modelos han aprendido a "sobreajustarse" deliberadamente a benchmarks específicos. Una puntuación alta en MMLU dejó de ser hace mucho tiempo un indicador confiable del razonamiento real — y todos en la industria lo saben, pero los estándares no cambian. El enfoque cognitivo-psicológico es significativamente más difícil de engañar. Si un modelo no puede generalizar a tareas fundamentalmente nuevas — ningún entrenamiento adicional en el conjunto de prueba lo ocultará. Las metodologías desarrolladas para medir la inteligencia en humanos son por su propia naturaleza resistentes a "manipular" el sistema.

Para inversores, compradores corporativos de IA y reguladores, esto potencialmente significa el fin de la era en que cualquier laboratorio podría anunciar un "avance hacia AGI" sin posibilidad de verificación independiente. Las escalas medibles comunes crean comparabilidad entre sistemas de diferentes empresas, y por lo tanto — responsabilidad.

Qué significa esto

DeepMind está desplazando la conversación sobre AGI de "tenemos el nivel N" a "aquí está específicamente cómo se puede medir esto". Esto no es una respuesta sobre los plazos de AGI y no es una garantía de consenso — diferentes laboratorios interpretarán las escalas de manera diferente. Pero es el primer paso serio hacia estándares de evaluación comunes, construido sobre ciencia en lugar de marketing.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita