Habr AI→ original

OpenAI GPT-5.4 resolvió un problema de FrontierMath que un matemático tardó 20 años en elaborar

OpenAI GPT-5.4 resolvió un problema de FrontierMath que el matemático polaco Bartosz Naskręcki había preparado durante casi 20 años y consideraba fuera del…

Procesado por IA desde Habr AI; editado por Hamidun News
OpenAI GPT-5.4 resolvió un problema de FrontierMath que un matemático tardó 20 años en elaborar
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

GPT-5.4 de OpenAI resolvió un problema del benchmark FrontierMath que el matemático polaco Bartosz Naskręcki había estado construyendo durante casi veinte años y consideraba prácticamente inaccesible para las máquinas. Para el propio autor, esto se convirtió en un punto de quiebre personal: hace poco todavía llamaba a la IA una "calculadora muy avanzada", y ahora habla de un nuevo nivel de trabajo colaborativo con el modelo.

Por qué sorprendió a todos

FrontierMath es uno de los benchmarks matemáticos más rigurosos para IA. Contiene 350 problemas originales en teoría de números, geometría algebraica, topología, combinatoria y análisis. La capa más pesada, Tier 4, consta de 48 problemas de nivel de investigación: incluso un matemático fuerte con doctorado podría necesitar al menos un mes solo para entender desde qué ángulo abordar tal problema. Es precisamente para estos casos que Naskręcki estaba preparando su ejemplo — no uno de libro de texto, sino casi en el límite de la complejidad.

Naskręcki fue uno de los pocos matemáticos europeos invitados a componer problemas para este conjunto. Su problema surgió de aproximadamente quince años de trabajo de investigación estrechamente enfocado, y la solución formalizada ocupaba 13 páginas densas. La respuesta era un número muy grande para excluir adivinanza aleatoria. Por lo tanto, lo sorprendente no era solo la respuesta correcta del GPT-5.4 en sí, sino también la manera en que el modelo llegó a ella: en lugar de enumeración bruta, notó la estructura y encontró un camino más corto. Según el autor, el enfoque del modelo resultó ser "limpio y elegante".

"Mi singularidad acaba de ocurrir… ¡y al otro lado hay vida —

extendiéndose hacia el infinito!"

Qué tan rápido creció el resultado

La historia es importante no solo por causa de un problema hermoso, sino por la velocidad del progreso. Cuando FrontierMath se lanzó a finales de 2024, los mejores modelos resolvían menos del 2% de los problemas. Durante dieciséis meses, los resultados crecieron un orden de magnitud, y no solo en ejemplos abiertos, sino también en el conjunto oculto, al que OpenAI no tenía acceso directo. Esto importa porque el argumento sobre "sobreajuste a las respuestas" sigue siendo la objeción principal de los escépticos cada vez que un nuevo modelo muestra un gran salto en matemáticas.

  • Finales de 2024: los mejores modelos resuelven menos del 2% de los problemas de FrontierMath.
  • Mediados de 2025: GPT-5 Pro alcanza el 13% en Tier 4.
  • Enero de 2026: GPT-5.2 Pro sube al 31% en Tier 4.
  • Marzo de 2026: GPT-5.4 Pro alcanza el 50% en los niveles 1–3 y el 38% en Tier 4.

El resultado en problemas ocultos destaca por separado. Según el artículo, GPT-5.4 resolvió el 55% de tales ejemplos versus el 25% de problemas en los que OpenAI teóricamente podría estar más cerca según los datos y soluciones. Esto no prueba la "pureza" absoluta del experimento, pero fortalece significativamente la versión de que el modelo realmente sabe cómo razonar sobre nuevos problemas en lugar de simplemente reproducir patrones vistos. Para benchmarks de investigación, esta es quizás la prueba más sensible: la novedad importa más que cualquier demostración en ejemplos ya conocidos.

Por qué el escepticismo no desapareció

A pesar de toda la fuerza del caso, la historia no se reduce a la fórmula "la máquina ya piensa como un humano". En la misma ejecución de evaluación, GPT-5.4 resolvió otro problema de Tier 4, pero el análisis preliminar mostró que el modelo podría haberse apoyado en un preprint antiguo de 2011 que el propio autor del problema no conocía. Este es un buen ejemplo de cómo se difumina el límite entre el razonamiento independiente y la búsqueda de literatura muy eficaz, especialmente si el modelo puede trabajar con la web y recopilar rápidamente fuentes raras.

También hay una segunda capa de preguntas — la independencia del propio benchmark. FrontierMath es financiado por OpenAI, y la empresa tiene acceso a una porción significativa de los problemas y soluciones. El conjunto oculto, en el que GPT-5.4 también mostró resultados sólidos, alivia parcialmente la tensión, pero no elimina completamente el conflicto de intereses.

Por lo tanto, es razonable leer esta historia en dos modos simultáneamente: como una señal real de un aumento marcado en las capacidades matemáticas de los modelos, y como un recordatorio de que la industria aún necesita pruebas independientes, metodologías transparentes y verificación externa de resultados sorprendentes.

Qué significa

La conclusión principal no es que los matemáticos deban ser reemplazados. Al contrario: la historia de Naskręcki muestra que los modelos de vanguardia están comenzando a funcionar como un socio de investigación que reduce el espacio de búsqueda y sugiere movimientos inesperados. Para la ciencia y la I+D aplicada, este es un cambio serio: la IA cada vez menos parece un calculador y cada vez más — como un coautor cuyas ideas ya no pueden ser ignoradas, pero aún necesitan ser cuidadosamente verificadas.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…