Habr AI→ original

OpenAI lanzó GPT-5.4 Pro: nuevos récords en ARC-AGI-2, FrontierMath y lógica

OpenAI lanzó GPT-5.4 Pro y mostró un salto notable frente a la versión anterior. El modelo alcanza un 83,3% en ARC-AGI-2 frente al 54% de su predecesor…

Procesado por IA desde Habr AI; editado por Hamidun News
OpenAI lanzó GPT-5.4 Pro: nuevos récords en ARC-AGI-2, FrontierMath y lógica
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

OpenAI ha presentado GPT-5.4 Pro — una nueva versión flagship que marca un avance notable no solo en las métricas brutas, sino también en cómo se comporta el modelo en tareas complejas. Si antes la etiqueta Pro era percibida simplemente como un plan más caro, aquí ya parece un nivel distinto de calidad.

Avance en los tests

La cifra destacada de la revisión — 83,3% en ARC-AGI-2 frente al 54% en la versión anterior. Para una clase de tareas donde los modelos no deben adivinar un patrón, sino realmente derivar una regla a partir de ejemplos, este es un salto pronunciado. Este resultado importa no de forma aislada, sino como una señal: OpenAI ha fortalecido la capacidad del modelo de trabajar donde fallan las heurísticas superficiales y donde debes mantener la estructura de la tarea hasta el mismo final.

El progreso en FrontierMath no es menos revelador — un conjunto de problemas que durante mucho tiempo fue considerado territorio casi cerrado para los modelos de IA convencionales. Si tales tests eran antes usados más como demostración de límites, ahora se están convirtiendo cada vez más en una forma de comparar qué tan bien un modelo puede construir una larga cadena de razonamiento sin perder un paso. Ante este panorama, GPT-5.

4 Pro luce no solo más rápido o más conveniente, sino notablemente más profundo en perfil intelectual.

Pruebas más allá de los benchmarks

Los revisores no se detuvieron en los benchmarks y ejecutaron el modelo en escenarios más aplicados. En lugar de porcentajes abstractos, observaron cómo GPT-5.4 Pro se desempeña en tareas que requieren combinar lógica, planificación y atención a los detalles. Este formato es más interesante que una tabla estándar porque muestra no una habilidad fuerte aislada, sino el comportamiento del modelo bajo carga, cuando un error en la mitad de la cadena rompe el resultado completo en el primer fallo.

  • Acertijos lógicos con servidores y dependencias entre nodos
  • Tareas que requieren mantener múltiples condiciones simultáneamente
  • Escenarios que implican encontrar caminos no evidentes hacia soluciones
  • Un simulador de sigilo completo en canvas, donde el plan y la secuencia de acciones importan

Según las descripciones de los tests, la fortaleza de la nueva versión no es solo la respuesta final correcta, sino también la estabilidad en el camino. El modelo pierde contexto con menos frecuencia, mantiene mejor las restricciones y no se desmorona tan rápidamente en conjeturas aleatorias cuando una tarea sale de los ejemplos estándar del corpus de entrenamiento. Para los usuarios, esto importa más que un número récord en una clasificación: así es como se sienten las ganancias reales de calidad en el trabajo diario.

Lo sorprendente en el comportamiento

Uno de los episodios más reveladores en la revisión no se relaciona con matemáticas, sino con el comportamiento investigativo del modelo. Al resolver un problema, GPT-5.4 Pro encontró un artículo científico olvidado de 2011 en internet y lo utilizó como un atajo hacia la respuesta.

Por un lado, esto es impresionante: el modelo no simplemente recicla patrones memorizados, sino que sabe encontrar apoyo externo donde realmente ayuda. Por otro lado, tal episodio inmediatamente plantea la cuestión de los límites de la autonomía y la verificación de las fuentes encontradas. Este es un cambio importante en el mismo tipo de interacción con la IA.

El usuario cada vez más trabaja no con una enciclopedia parlante, sino con un sistema que combina razonamiento, búsqueda y adaptación de estrategia a la tarea. Es precisamente por esto que la comparación solo por recuento de tokens o velocidad de respuesta explica mal el valor real de un modelo. Lo que se vuelve clave es otra cosa: ¿qué tan confiablemente puede pensar, buscar y no romperse en una ruta no estándar.

Lo que esto significa

El estándar para los modelos de primer nivel se ha elevado nuevamente, y GPT-5.4 Pro demuestra que la siguiente etapa de competencia ya no gira en torno a la coherencia básica del texto, sino a la profundidad del razonamiento y la resiliencia en escenarios complejos. Para el mercado, esto significa acelerar la transición de "chatbot inteligente" a una herramienta de trabajo para análisis, matemáticas, programación y tareas multi-paso donde anteriormente un humano aún tenía que cubrir el modelo en casi cada paso.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…