OpenAI a lancé GPT-5.4 Pro : de nouveaux records sur ARC-AGI-2, FrontierMath et en logique
OpenAI a lancé GPT-5.4 Pro et a montré un bond notable par rapport à la version précédente. Le modèle atteint 83,3 % sur ARC-AGI-2 contre 54 % pour son…
Traité par IA depuis Habr AI ; édité par Hamidun News
OpenAI a dévoilé GPT-5.4 Pro — une nouvelle version phare qui marque une avancée notable non seulement dans les métriques brutes, mais aussi dans la façon dont le modèle se comporte sur des tâches complexes. Si l'étiquette Pro était auparavant perçue simplement comme un forfait plus cher, elle ressemble ici à un niveau distinct de qualité.
Percée dans les tests
Le chiffre vedette de l'examen — 83,3% sur ARC-AGI-2 contre 54% dans la version précédente. Pour une classe de tâches où les modèles ne doivent pas deviner un motif mais réellement dériver une règle à partir d'exemples, c'est une progression nette. Ce résultat compte non pas en isolation, mais comme un signal : OpenAI a renforcé la capacité du modèle à fonctionner là où les heuristiques superficielles échouent et où vous devez maintenir la structure de la tâche jusqu'au bout.
Les progrès dans FrontierMath ne sont pas moins éloquents — un ensemble de problèmes qui a longtemps été considéré comme un territoire quasi fermé pour les modèles d'IA conventionnels. Si ces tests étaient auparavant utilisés plutôt comme démonstration des limites, ils deviennent maintenant de plus en plus un moyen de comparer à quel point un modèle peut construire une longue chaîne de raisonnement sans perdre un pas. Dans ce contexte, GPT-5.
4 Pro ne semble pas seulement plus rapide ou plus pratique, mais notablement plus profond dans son profil intellectuel.
Tests au-delà des benchmarks
Les examinateurs ne se sont pas arrêtés aux benchmarks et ont fait fonctionner le modèle dans des scénarios plus appliqués. Au lieu de pourcentages abstraits, ils ont observé comment GPT-5.4 Pro s'acquitte de tâches qui nécessitent de combiner logique, planification et attention aux détails. Ce format est plus intéressant qu'un tableau standard car il montre non pas une compétence forte isolée, mais le comportement du modèle sous charge, lorsqu'une erreur au milieu de la chaîne brise l'ensemble du résultat au premier échec.
- Énigmes logiques avec serveurs et dépendances entre nœuds
- Tâches nécessitant le maintien simultané de plusieurs conditions
- Scénarios impliquant de trouver des chemins non évidents vers des solutions
- Un simulateur de furtivité complet sur canvas, où le plan et la séquence d'actions comptent
D'après les descriptions des tests, le point fort de la nouvelle version n'est pas seulement la réponse finale correcte, mais aussi la stabilité en chemin. Le modèle perd moins souvent le contexte, maintient mieux les contraintes et ne bascule pas aussi rapidement vers des suppositions aléatoires si une tâche sort des exemples standards du corpus d'entraînement. Pour les utilisateurs, cela compte plus qu'un chiffre record dans un classement : c'est ainsi que les véritables gains de qualité se ressentent dans le travail quotidien.
Ce qui a surpris dans le comportement
L'un des épisodes les plus éloquents de l'examen ne concerne pas les mathématiques mais le comportement investigatif du modèle. En résolvant un problème, GPT-5.4 Pro a trouvé un article scientifique oublié de 2011 sur internet et l'a utilisé comme un raccourci vers la réponse.
D'un côté, c'est impressionnant : le modèle ne se contente pas de recycler des motifs mémorisés mais sait comment trouver un appui externe où cela aide réellement. De l'autre côté, un tel épisode soulève immédiatement la question des limites de l'autonomie et de la vérification des sources trouvées. C'est un changement important dans le type même d'interaction avec l'IA.
L'utilisateur travaille de plus en plus non pas avec une encyclopédie parlante, mais avec un système qui combine raisonnement, recherche et adaptation de stratégie à la tâche. C'est précisément pour cela que la comparaison seule par le nombre de tokens ou la vitesse de réponse explique mal la véritable valeur d'un modèle. Ce qui devient clé est autre chose : à quel point peut-il penser, chercher et ne pas casser sur un chemin non standard de manière fiable.
Ce que cela signifie
La barre pour les modèles de premier plan a augmenté à nouveau, et GPT-5.4 Pro montre que la prochaine étape de la concurrence ne tourne plus autour de la cohérence basique du texte, mais autour de la profondeur du raisonnement et de la résilience dans des scénarios complexes. Pour le marché, cela signifie accélérer la transition d'un « chatbot intelligent » à un outil de travail pour l'analyse, les mathématiques, la programmation et les tâches multi-étapes où auparavant un humain devait encore couvrir le modèle à presque chaque étape.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.