DeepMind propuso diez escalas cognitivas para medir el progreso hacia la AGI
Google DeepMind publicó "Measuring Progress Toward AGI" — una continuación de la clasificación de niveles de AGI de 2023. En lugar de una calificación única…
Procesado por IA desde Habr AI; editado por Hamidun News
Google DeepMind ha publicado un artículo titulado "Measuring Progress Toward AGI" — un intento de proporcionar a la industria una herramienta para medir genuinamente el progreso hacia AGI, en lugar de otra clasificación sin forma de verificarla.
De dónde vino el problema
Hace casi tres años, DeepMind publicó "Levels of AGI" — un sistema de cinco niveles de inteligencia (desde el inicial hasta el sobrehumano) y seis niveles de autonomía (desde herramienta simple hasta agente completamente autónomo). La analogía con los niveles de conducción autónoma resultó acertada: estructurada, visual, conveniente para explicar a inversores y periodistas. La industria obtuvo un vocabulario común — algo así como una terminología unificada para hablar sobre AGI.
Pero la clasificación reveló un defecto fundamental: no había herramienta para verificar dónde se encontraba realmente cualquier sistema dado. Cada empresa podría llamar a su modelo "nivel 2" o "nivel 3", y nadie tenía forma de refutarlo. "AGI" se convirtió en una etiqueta de marketing — conveniente para comunicados de prensa y atracción de inversiones, pero completamente inconveniente para la ciencia.
Este nuevo trabajo intenta resolver precisamente este problema.
Diez escalas en lugar de una puntuación única
El artículo, publicado en marzo de 2026, propone un enfoque fundamentalmente diferente. En lugar de una clasificación general única — diez escalas separadas, cada una midiendo un aspecto específico de las capacidades cognitivas. Además, las escalas son independientes: un sistema puede mostrar un resultado alto en razonamiento pero bajo en adaptación a nuevas tareas — y esta discrepancia será claramente visible, no oculta detrás de un valor promediado. Este enfoque proporciona un retrato multidimensional de un sistema, no un único número.
La diferencia fundamental del benchmarking convencional: las escalas se construyen no en conjuntos de datos y conjuntos de problemas, sino en herramientas de psicología cognitiva — una ciencia que durante décadas ha investigado la inteligencia en personas reales y desarrollado metodologías resistentes a los efectos del entrenamiento.
Entre los aspectos medidos:
- Memoria de trabajo y retención de contexto
- Planificación y razonamiento de múltiples pasos
- Transferencia de conocimiento a nuevos dominios
- Aprendizaje a partir de un pequeño número de ejemplos (few-shot)
- Meta-cognición — comprensión de los límites del propio conocimiento
- Razonamiento causal
- Adaptación a datos fuera de la distribución de entrenamiento
Los autores posicionan el marco como un punto de partida para la discusión, no como un estándar final. La lista de escalas está abierta a ampliación.
Por qué esto importa más que los benchmarks
Hasta ahora, el progreso en IA se ha medido indirectamente: MMLU, HumanEval, ARC-Challenge, GSM8K. El problema es que los modelos han aprendido a "sobreajustarse" deliberadamente a benchmarks específicos. Una puntuación alta en MMLU dejó de ser hace mucho tiempo un indicador confiable del razonamiento real — y todos en la industria lo saben, pero los estándares no cambian. El enfoque cognitivo-psicológico es significativamente más difícil de engañar. Si un modelo no puede generalizar a tareas fundamentalmente nuevas — ningún entrenamiento adicional en el conjunto de prueba lo ocultará. Las metodologías desarrolladas para medir la inteligencia en humanos son por su propia naturaleza resistentes a "manipular" el sistema.
Para inversores, compradores corporativos de IA y reguladores, esto potencialmente significa el fin de la era en que cualquier laboratorio podría anunciar un "avance hacia AGI" sin posibilidad de verificación independiente. Las escalas medibles comunes crean comparabilidad entre sistemas de diferentes empresas, y por lo tanto — responsabilidad.
Qué significa esto
DeepMind está desplazando la conversación sobre AGI de "tenemos el nivel N" a "aquí está específicamente cómo se puede medir esto". Esto no es una respuesta sobre los plazos de AGI y no es una garantía de consenso — diferentes laboratorios interpretarán las escalas de manera diferente. Pero es el primer paso serio hacia estándares de evaluación comunes, construido sobre ciencia en lugar de marketing.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.