ChatGPT 5.4 de OpenAI superó a Claude Opus 4.6 y Gemini 3.1 Pro en una comparativa de Habr
En Habr compararon Gemini 3.1 Pro, ChatGPT 5.4 y Claude Opus 4.6 en cuatro escenarios cotidianos: generación de texto, resumen de PDF, matemáticas y…
Procesado por IA desde Habr AI; editado por Hamidun News
En Habr se publicó un análisis práctico importante de tres modelos insignia: Gemini 3.1 Pro, ChatGPT 5.4 y Claude Opus 4.6. El autor probó no benchmarks abstractos, sino tareas reales cotidianas — desde escribir una historia y comprimir un PDF hasta matemáticas y una aplicación en Python — y por puntuación total clasificó inesperadamente a ChatGPT como el líder.
Cómo compararon
La prueba involucró cuatro escenarios con los que los usuarios realmente lidian con IA todos los días. Primero, se pidió a los modelos que escribieran una historia de fantasía humorística en tres capítulos. Luego les dieron un PDF con trabajo práctico y les pidieron crear un resumen conciso pero utilizable sin perder información clave. Después vino un bloque de cuatro problemas matemáticos, y la prueba final fue desarrollar una aplicación de escritorio en Python: una calculadora de ingeniería con GUI y un juego Snake incorporado.
La lógica de evaluación fue lo más práctica posible. El autor evaluó tareas de texto y código en una escala de tres puntos, mientras que la etapa de matemáticas otorgaba hasta cuatro puntos — uno por cada problema resuelto correctamente. Adicionalmente, por primera vez incluyó el costo de cada solicitud en rublos en la tabla. Gracias a esto, la comparación no era solo sobre la calidad de la respuesta, sino también sobre el costo del resultado. El máximo en tal esquema es 13 puntos, y fue precisamente la combinación de puntos con gastos lo que se convirtió en el criterio principal para la elección final.
Quién ganó las etapas
En la primera etapa, ChatGPT falló ligeramente debido a un error de numeración de capítulos y recibió 2,5 puntos, mientras que Gemini y Claude obtuvieron el máximo de 3 puntos cada uno. En la segunda ronda, la situación se invirtió: ChatGPT comprimió el PDF mejor que todos y preservó detalles importantes, mientras que Gemini y Claude, en opinión del autor, cortaron el texto demasiado agresivamente y perdieron parte de la información necesaria. El bloque de matemáticas fue parejo para los tres, pero en programación surgieron nuevamente matices, no en teoría sino en resultados de trabajo.
- Generación de texto: Gemini 3.1 Pro — 3 puntos por 20 rublos, Claude Opus 4.6 — 3 puntos por 68 rublos, ChatGPT 5.4 — 2,5 puntos por 25 rublos.
- Compresión de PDF: ChatGPT 5.4 recibió 3 puntos por 24 rublos; Gemini 3.1 Pro y Claude Opus 4.6 obtuvieron 2 puntos por 16 y 38 rublos respectivamente.
- Matemáticas: los tres modelos resolvieron los problemas perfectamente, pero ChatGPT 5.4 fue más barato — 15 rublos contra 22 para Gemini y 29 para Claude.
- Programación: ChatGPT 5.4 recibió 3 puntos por una calculadora y Snake funcionando, Gemini 3.1 Pro — 2,5 puntos debido a la captura de tecla fallida en el juego, Claude Opus 4.6 — 2 puntos debido a un error al dividir por números decimales.
"El resultado es claro — ChatGPT 5.4 ganó."
Precio y compromisos
La tabla final resultó ser reveladora. ChatGPT 5.4 anotó 11,5 puntos y gastó 112 rublos.
Gemini 3.1 Pro terminó la prueba con 10,5 puntos y gastos totales de 87 rublos, siendo la opción más económica. Claude Opus 4.
6 recibió 10 puntos pero costó 208 rublos — casi el doble de ChatGPT y más del doble de Gemini. Si se mira solo el precio, el líder aquí es de Google; si se mira el balance de calidad y gastos, la ventaja es de OpenAI. Sin embargo, el análisis en sí no pretende ser un benchmark académico universal.
El autor compara directamente modelos en un conjunto estrecho de tareas cotidianas y en algunos lugares se basa en criterio editorial personal, especialmente donde se trata de estilo de texto o conveniencia de interfaz. Pero es precisamente por eso que el material es útil: muestra no registros de laboratorio, sino cómo se comportan los modelos en el trabajo práctico. En esta selección, Gemini se ve como una opción presupuestaria racional, Claude — como una cara e inconsistente, y ChatGPT — como el compromiso más estable.
Qué significa esto
Si se elige un modelo para un amplio conjunto de tareas cotidianas, entonces por esta comparación ChatGPT 5.4 está adelante: no es el mejor en todos lados, pero más a menudo entrega el resultado más parejo por dinero razonable. Gemini 3.1 Pro sigue siendo una fuerte alternativa para quienes miran su presupuesto de cerca, mientras que Claude Opus 4.6 después de tal prueba se ve como una opción menos favorable que antes.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.