KDnuggets→ original

Humanity's Last Exam: Por qué el principal benchmark de IA de CAIS se considera una distracción

Humanity's Last Exam — 3.000 preguntas de nivel PhD del Center for AI Safety y Scale AI — se convirtió en el benchmark de IA más complejo de 2025. Los…

Procesado por IA desde KDnuggets; editado por Hamidun News
Humanity's Last Exam: Por qué el principal benchmark de IA de CAIS se considera una distracción
Fuente: KDnuggets. Collage: Hamidun News.
◐ Escuchar artículo

El benchmark Humanity's Last Exam (HLE) se ha convertido en una de las herramientas de evaluación de IA más discutidas desde su publicación en enero de 2025 — y simultáneamente una de las más criticadas. Los analistas de KDnuggets recopilaron un espectro de opiniones de expertos y llegaron a la conclusión: la prueba es más probable que distraiga a la comunidad de lo que importa que proporcione un referente útil.

Qué es Humanity's Last Exam

El HLE fue creado conjuntamente por la organización sin ánimo de lucro Center for AI Safety (CAIS) y Scale AI. El benchmark contiene 3000 preguntas a nivel de PhD en más de 100 disciplinas académicas: matemáticas, biología molecular, lenguas clásicas, historia de la ciencia y docenas de otros campos. Las preguntas fueron compiladas y verificadas por cientos de profesores y estudiantes de posgrado en todo el mundo.

Parámetros clave:

  • Fecha de lanzamiento — enero de 2025
  • Autores — Center for AI Safety y Scale AI
  • Volumen — 3000 preguntas, 100+ disciplinas
  • Mejor resultado en el lanzamiento — aproximadamente 18% para OpenAI o3
  • GPT-4o — aproximadamente 3%, Claude 3.5 Sonnet — aproximadamente 8%
  • Las preguntas fueron compiladas y verificadas por cientos de científicos

Los autores perseguían un objetivo comprensible: demostrar que los modelos actuales aún están lejos de alcanzar el nivel de expertos humanos en las tareas cognitivas más complejas. En 2024–2025, las demostraciones públicas de IA frecuentemente creaban la ilusión de una AGI inminente — el HLE se convirtió en un contraargumento: "miren qué lejos aún nos queda."

Por qué HLE se considera una distracción

La principal crítica de los detractores es la irrelevancia. La prueba verifica el conocimiento de hechos académicos raros: teoremas poco conocidos de hace dos siglos, citas exactas de textos sánscritos, reacciones bioquímicas específicas. Una puntuación baja de un modelo en tal prueba no significa que escriba código mal, analice datos mal, sintetice investigaciones mal o ayude mal en diagnóstico médico.

El segundo argumento es la Ley de Goodhart, bien conocida en la ciencia: una vez que una métrica se convierte en un objetivo, deja de ser una medida confiable. Si los principales laboratorios de IA comienzan — explícita o implícitamente — a optimizar modelos para HLE, las puntuaciones aumentarán sin un crecimiento real en la utilidad de los productos. Esto es exactamente lo que sucedió con MMLU y varios otros benchmarks anteriores.

"Necesitamos pruebas que midan cuánto la IA me ayuda a trabajar mejor

— no qué tan bien conoce rarezas académicas."

La tercera capa de crítica concierne la transparencia: las preguntas del HLE están clasificadas, lo que hace que la reproducción independiente de resultados y la auditoría externa sean extremadamente difíciles.

Lo que dicen los defensores del HLE

Los defensores del benchmark apelan a su intención original: HLE no pretendía medir la utilidad del producto. Su tarea es medir el techo de los sistemas actuales en áreas cognitivamente complejas donde la experiencia humana aún no ha sido reproducida. Desde esta perspectiva, la prueba tuvo éxito: atenuó parte de la euforia y proporcionó a periodistas, inversores y reguladores un argumento claro contra declaraciones prematuras de AGI.

Además, los creadores señalan: las pruebas extremadamente difíciles crean un "margen de seguridad." Cuando los modelos comiencen a puntuarse 50–70% en HLE, eso será una señal de alarma genuina — no ruido de marketing.

Lo que esto significa

Humanity's Last Exam cumplió su primera tarea — mostró los límites de los sistemas de IA actuales en tareas académicamente complejas. Pero como referente de progreso a largo plazo, genera dudas justificadas: optimizar para rarezas académicas no conduce a la utilidad real. La evaluación útil del progreso de la IA requiere benchmarks que prueben escenarios reales — escritura de código, análisis de datos, asistencia médica, análisis legal. Mientras la selección de benchmarks siga siendo académica, la discusión sobre "la verdadera capacidad de la IA" corre el riesgo de girar en el vacío.

Preguntas Frecuentes

¿Qué resultado obtuvo OpenAI o3 en Humanity's Last Exam?

Según el lanzamiento de enero de 2025, OpenAI o3 obtuvo aproximadamente 18% de respuestas correctas — el mejor resultado entre los modelos probados en el momento de la publicación. La mayoría de otros sistemas principales, incluyendo GPT-4o y Claude 3.5 Sonnet, permanecieron en el rango 3–8%.

¿Quién creó el benchmark HLE y por qué?

El benchmark fue desarrollado conjuntamente por Center for AI Safety (CAIS) y Scale AI. Los autores buscaban demostrar que los sistemas de IA modernos aún no han alcanzado el nivel de los mejores especialistas humanos en tareas cognitivas complejas — y moderar las expectativas infladas en torno a AGI.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…