Habr AI→ original

Le ChatGPT 5.4 d'OpenAI a surpassé Claude Opus 4.6 et Gemini 3.1 Pro dans une comparaison sur Habr

Habr a comparé Gemini 3.1 Pro, ChatGPT 5.4 et Claude Opus 4.6 dans quatre scénarios du quotidien : génération de texte, résumé de PDF, mathématiques et…

Traité par IA depuis Habr AI ; édité par Hamidun News
Le ChatGPT 5.4 d'OpenAI a surpassé Claude Opus 4.6 et Gemini 3.1 Pro dans une comparaison sur Habr
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Sur Habr a été publié un large examen pratique de trois modèles phares : Gemini 3.1 Pro, ChatGPT 5.4 et Claude Opus 4.6. L'auteur a testé non pas des benchmarks abstraits, mais des tâches réelles quotidiennes — de l'écriture d'une histoire et la compression d'un PDF aux mathématiques et une application Python — et par score total a classé de manière inattendue ChatGPT comme le leader.

Comment ils ont comparé

Le test a impliqué quatre scénarios avec lesquels les utilisateurs traitent réellement l'IA chaque jour. D'abord, les modèles ont été invités à écrire une histoire de fantaisie humoristique en trois chapitres. Ensuite, on leur a donné un PDF avec un travail pratique et on leur a demandé de créer un résumé concis mais utilisable sans perdre d'informations clés. Après cela est venu un bloc de quatre problèmes mathématiques, et le test final a été de développer une application de bureau en Python : une calculatrice d'ingénierie avec GUI et un jeu Snake intégré.

La logique d'évaluation était aussi pratique que possible. L'auteur a évalué les tâches de texte et de code sur une échelle de trois points, tandis que l'étape mathématique donnait jusqu'à quatre points — un pour chaque problème correctement résolu. De plus, pour la première fois, il a inclus le coût de chaque requête en roubles dans le tableau. Grâce à cela, la comparaison ne portait pas seulement sur la qualité de la réponse, mais aussi sur le coût du résultat. Le maximum dans un tel schéma est de 13 points, et c'était précisément la combinaison de points et de dépenses qui est devenue le critère principal pour le choix final.

Qui a remporté les étapes

À la première étape, ChatGPT a faibli légèrement en raison d'une erreur de numérotation des chapitres et a reçu 2,5 points, tandis que Gemini et Claude ont pris le maximum de 3 points chacun. À la deuxième manche, la situation s'est inversée : ChatGPT a comprimé le PDF mieux que tous et a préservé les détails importants, tandis que Gemini et Claude, selon l'auteur, ont coupé le texte trop agressivement et ont perdu une partie des informations nécessaires. Le bloc mathématique était égal pour les trois, mais en programmation, des nuances ont réapparu, non pas en théorie mais dans les résultats du travail.

  • Génération de texte : Gemini 3.1 Pro — 3 points pour 20 roubles, Claude Opus 4.6 — 3 points pour 68 roubles, ChatGPT 5.4 — 2,5 points pour 25 roubles.
  • Compression PDF : ChatGPT 5.4 a reçu 3 points pour 24 roubles ; Gemini 3.1 Pro et Claude Opus 4.6 ont obtenu 2 points pour 16 et 38 roubles respectivement.
  • Mathématiques : les trois modèles ont résolu les problèmes parfaitement, mais ChatGPT 5.4 était moins cher — 15 roubles contre 22 pour Gemini et 29 pour Claude.
  • Programmation : ChatGPT 5.4 a reçu 3 points pour une calculatrice et Snake fonctionnants, Gemini 3.1 Pro — 2,5 points en raison d'une capture de touche échouée dans le jeu, Claude Opus 4.6 — 2 points en raison d'une erreur lors de la division par des nombres décimaux.
"Le résultat est clair — ChatGPT 5.4 a gagné."

Prix et compromis

Le tableau final s'est avéré révélateur. ChatGPT 5.4 a marqué 11,5 points et a dépensé 112 roubles.

Gemini 3.1 Pro a terminé le test avec 10,5 points et des dépenses totales de 87 roubles, ce qui en fait l'option la plus économique. Claude Opus 4.

6 a reçu 10 points mais a coûté 208 roubles — presque le double de ChatGPT et plus du double de Gemini. Si l'on regarde seulement le prix, le leader ici est de Google ; si l'on regarde l'équilibre entre la qualité et les dépenses, l'avantage est à OpenAI. Cependant, l'examen lui-même ne prétend pas être un benchmark académique universel.

L'auteur compare directement les modèles dans un ensemble restreint de tâches quotidiennes et s'appuie par endroits sur le jugement éditorial personnel, en particulier lorsqu'il s'agit de style de texte ou de commodité d'interface. Mais c'est précisément pour cela que le matériel est utile : il montre non pas des records de laboratoire, mais comment les modèles se comportent dans le travail pratique. Dans cette sélection, Gemini ressemble à une option budgétaire rationnelle, Claude — à une option chère et inégale, et ChatGPT — au compromis le plus stable.

Ce que cela signifie

Si vous choisissez un modèle pour un large ensemble de tâches quotidiennes, alors selon cette comparaison ChatGPT 5.4 est en tête : il n'est pas le meilleur partout, mais plus souvent offre le résultat le plus équilibré pour un argent raisonnable. Gemini 3.1 Pro reste une forte alternative pour ceux qui surveillent de près leur budget, tandis que Claude Opus 4.6 après un tel test ressemble à un choix moins favorable qu'avant.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…