DeepMind Blog→ original

Google DeepMind propuso un marco cognitivo para medir el progreso hacia AGI

Google DeepMind propuso una nueva forma de hablar del progreso hacia AGI: a través de un conjunto de capacidades cognitivas, y no de benchmarks aislados…

Procesado por IA desde DeepMind Blog; editado por Hamidun News
Google DeepMind propuso un marco cognitivo para medir el progreso hacia AGI
Fuente: DeepMind Blog. Collage: Hamidun News.
◐ Escuchar artículo

Google DeepMind propuso un framework cognitivo para medir el progreso hacia AGI no por benchmarks individuales, sino por un conjunto de capacidades cognitivas. Junto con esto, la empresa lanzó un hackathon en Kaggle para que los investigadores desarrollen pruebas prácticas para tal sistema de evaluación.

Por qué se necesita un framework

Google DeepMind parte de un problema simple: prácticamente todos los grandes laboratorios hablan sobre AGI, pero todavía no existe una forma generalmente aceptada de medir cuán cerca han llegado los sistemas a ella. Las pruebas individuales en matemáticas, código o generación de texto muestran solo fragmentos de la imagen completa. Si el objetivo es comprender el nivel general de inteligencia de un modelo, entonces la medición debe ser más amplia que un único conjunto de tareas o un único escenario de demostración exitoso.

En un nuevo trabajo titulado Measuring Progress Toward AGI: A Cognitive Taxonomy, el equipo propone basarse en ciencia cognitiva, psicología y neurociencia. La lógica es esta: si AGI se entiende como inteligencia suficientemente general, entonces debe evaluarse a través de funciones cognitivas básicas, no solo a través de habilidades aplicadas. Este no es una escala "AGI o no AGI" lista, sino un framework científico que puede aplicarse a pruebas específicas.

"La ciencia cognitiva es una parte importante del rompecabezas,"

escriben los autores.

En qué consiste el enfoque

En el centro del framework hay diez capacidades que, según la hipótesis de DeepMind, son importantes para la inteligencia general de sistemas de IA. La lista incluye percepción, generación, atención, aprendizaje, memoria, razonamiento, metacognición, funciones ejecutivas, resolución de problemas y cognición social. Este conjunto es importante porque cubre no solo las fortalezas conocidas de los modelos modernos, como la generación de texto o las cadenas lógicas, sino también cosas más complejas—por ejemplo, la capacidad de rastrear los propios errores, cambiar flexiblemente entre objetivos y trabajar correctamente con contexto social.

Para convertir esta taxonomía en una herramienta medible, DeepMind propone un protocolo de tres pasos. Primero, los sistemas de IA deben ejecutarse a través de un amplio conjunto de tareas cognitivas para cada capacidad, utilizando conjuntos de prueba retenidos para reducir el riesgo de contaminación de datos. Luego, para las mismas tareas, se recopila un nivel de referencia humano de una muestra demográficamente representativa de adultos.

Después de esto, los resultados de los modelos se comparan no contra una "puntuación mínima" abstracta, sino contra la distribución de resultados humanos para cada capacidad. La idea aquí es que la comparación con humanos no debe ser un lema general, sino un empirismo cuidadoso. Un modelo puede ser muy fuerte en razonamiento y memoria, pero significativamente más débil en aprender nuevas instrucciones o en interpretación social.

En este caso, la conversación sobre el progreso hacia AGI se vuelve más sustancial: muestra no solo dónde el sistema impresiona, sino también exactamente dónde tiene lagunas estructurales.

Hackathon en Kaggle

DeepMind no se limita a una publicación. Junto con Kaggle, la empresa lanzó el hackathon Measuring progress toward AGI: Cognitive abilities para ayudar a la comunidad a construir las evaluaciones faltantes en la práctica. Se invita a los participantes a usar la nueva plataforma Kaggle Community Benchmarks y probar sus ideas en una gama de modelos líderes. El enfoque está en áreas donde la brecha en las evaluaciones es actualmente más notable.

  • Aprendizaje
  • Metacognición
  • Atención
  • Funciones ejecutivas
  • Cognición social

El fondo de premios es de $200.000. De acuerdo con las reglas de DeepMind, los dos mejores trabajos en cada una de las cinco categorías recibirán $10.000 cada uno, y cuatro envíos más fuertes independientemente de la categoría recibirán $25.000 cada uno. Los envíos están abiertos desde 17 de marzo de 2026 hasta 16 de abril de 2026, y la empresa promete anunciar los resultados el 1 de junio de 2026. Este es un detalle importante: DeepMind no está solo publicando el framework como teoría, sino intentando construir rápidamente un ecosistema de verificaciones y experimentos externos a su alrededor.

Qué significa esto

Google DeepMind propone ver el progreso en IA no como una carrera por registros individuales, sino como una comparación sistemática de perfiles cognitivos de modelos con el nivel humano. Si el enfoque prende, la industria tendrá un lenguaje más claro para hablar sobre "aproximarse a AGI"—con un desglose por capacidad, lagunas comprensibles y pruebas reproducibles, en lugar de solo anuncios ruidosos del próximo avance.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…