OpenAI a lancé GPT-5.4 Pro : de nouveaux records sur ARC-AGI-2, FrontierMath et en logique

Q: Quelle est la source ?

Publication originale sur Habr AI. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

30 avr. 2026. Temps de lecture : 3 min.

OpenAI a lancé GPT-5.4 Pro et a montré un bond notable par rapport à la version précédente. Le modèle atteint 83,3 % sur ARC-AGI-2 contre 54 % pour son…

Rédaction de Hamidun News

Veille IA · Habr AI

30 avr. 2026· 2 min

Traité par IA depuis Habr AI ; édité par Hamidun News

OpenAI a lancé GPT-5.4 Pro : de nouveaux records sur ARC-AGI-2, FrontierMath et en logique — Source : Habr AI. Collage: Hamidun News.

◐ Écouter l'article

OpenAI a dévoilé GPT-5.4 Pro — une nouvelle version phare qui marque une avancée notable non seulement dans les métriques brutes, mais aussi dans la façon dont le modèle se comporte sur des tâches complexes. Si l'étiquette Pro était auparavant perçue simplement comme un forfait plus cher, elle ressemble ici à un niveau distinct de qualité.

Percée dans les tests

Le chiffre vedette de l'examen — 83,3% sur ARC-AGI-2 contre 54% dans la version précédente. Pour une classe de tâches où les modèles ne doivent pas deviner un motif mais réellement dériver une règle à partir d'exemples, c'est une progression nette. Ce résultat compte non pas en isolation, mais comme un signal : OpenAI a renforcé la capacité du modèle à fonctionner là où les heuristiques superficielles échouent et où vous devez maintenir la structure de la tâche jusqu'au bout.

Les progrès dans FrontierMath ne sont pas moins éloquents — un ensemble de problèmes qui a longtemps été considéré comme un territoire quasi fermé pour les modèles d'IA conventionnels. Si ces tests étaient auparavant utilisés plutôt comme démonstration des limites, ils deviennent maintenant de plus en plus un moyen de comparer à quel point un modèle peut construire une longue chaîne de raisonnement sans perdre un pas. Dans ce contexte, GPT-5.

4 Pro ne semble pas seulement plus rapide ou plus pratique, mais notablement plus profond dans son profil intellectuel.

Tests au-delà des benchmarks

Les examinateurs ne se sont pas arrêtés aux benchmarks et ont fait fonctionner le modèle dans des scénarios plus appliqués. Au lieu de pourcentages abstraits, ils ont observé comment GPT-5.4 Pro s'acquitte de tâches qui nécessitent de combiner logique, planification et attention aux détails. Ce format est plus intéressant qu'un tableau standard car il montre non pas une compétence forte isolée, mais le comportement du modèle sous charge, lorsqu'une erreur au milieu de la chaîne brise l'ensemble du résultat au premier échec.

Énigmes logiques avec serveurs et dépendances entre nœuds
Tâches nécessitant le maintien simultané de plusieurs conditions
Scénarios impliquant de trouver des chemins non évidents vers des solutions
Un simulateur de furtivité complet sur canvas, où le plan et la séquence d'actions comptent

D'après les descriptions des tests, le point fort de la nouvelle version n'est pas seulement la réponse finale correcte, mais aussi la stabilité en chemin. Le modèle perd moins souvent le contexte, maintient mieux les contraintes et ne bascule pas aussi rapidement vers des suppositions aléatoires si une tâche sort des exemples standards du corpus d'entraînement. Pour les utilisateurs, cela compte plus qu'un chiffre record dans un classement : c'est ainsi que les véritables gains de qualité se ressentent dans le travail quotidien.

Ce qui a surpris dans le comportement

L'un des épisodes les plus éloquents de l'examen ne concerne pas les mathématiques mais le comportement investigatif du modèle. En résolvant un problème, GPT-5.4 Pro a trouvé un article scientifique oublié de 2011 sur internet et l'a utilisé comme un raccourci vers la réponse.

D'un côté, c'est impressionnant : le modèle ne se contente pas de recycler des motifs mémorisés mais sait comment trouver un appui externe où cela aide réellement. De l'autre côté, un tel épisode soulève immédiatement la question des limites de l'autonomie et de la vérification des sources trouvées. C'est un changement important dans le type même d'interaction avec l'IA.

L'utilisateur travaille de plus en plus non pas avec une encyclopédie parlante, mais avec un système qui combine raisonnement, recherche et adaptation de stratégie à la tâche. C'est précisément pour cela que la comparaison seule par le nombre de tokens ou la vitesse de réponse explique mal la véritable valeur d'un modèle. Ce qui devient clé est autre chose : à quel point peut-il penser, chercher et ne pas casser sur un chemin non standard de manière fiable.

Ce que cela signifie

La barre pour les modèles de premier plan a augmenté à nouveau, et GPT-5.4 Pro montre que la prochaine étape de la concurrence ne tourne plus autour de la cohérence basique du texte, mais autour de la profondeur du raisonnement et de la résilience dans des scénarios complexes. Pour le marché, cela signifie accélérer la transition d'un « chatbot intelligent » à un outil de travail pour l'analyse, les mathématiques, la programmation et les tâches multi-étapes où auparavant un humain devait encore couvrir le modèle à presque chaque étape.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite