OpenAI GPT-5.4 a résolu un problème de FrontierMath qu'un mathématicien a mis 20 ans à élaborer
OpenAI GPT-5.4 a résolu un problème de FrontierMath que le mathématicien polonais Bartosz Naskręcki préparait depuis près de 20 ans et jugeait hors de portée…
Traité par IA depuis Habr AI ; édité par Hamidun News
GPT-5.4 d'OpenAI a résolu un problème du benchmark FrontierMath que le mathématicien polonais Bartosz Naskręcki construisait depuis près de vingt ans et considérait comme pratiquement inaccessible pour les machines. Pour l'auteur lui-même, cela a été un tournant personnel : il y a peu encore, il appelait l'IA une "calculatrice très avancée", et maintenant il parle d'un nouveau niveau de collaboration avec le modèle.
Pourquoi cela a surpris tout le monde
FrontierMath est l'un des benchmarks mathématiques les plus rigoureux pour l'IA. Il contient 350 problèmes originaux en théorie des nombres, géométrie algébrique, topologie, combinatoire et analyse. La couche la plus lourde, Tier 4, se compose de 48 problèmes de niveau recherche : même un fort mathématicien avec un doctorat pourrait avoir besoin d'au moins un mois juste pour comprendre l'angle par lequel aborder un tel problème. C'est précisément pour ces cas que Naskręcki préparait son exemple — pas un de manuel scolaire, mais pratiquement à la limite de la complexité.
Naskręcki était l'un des rares mathématiciens européens invités à composer des problèmes pour cet ensemble. Son problème résultait d'environ quinze ans de travail de recherche étroitement focalisé, et la solution formalisée occupait 13 pages denses. La réponse était un très grand nombre pour exclure les deviner au hasard. Par conséquent, ce qui était surprenant n'était pas seulement la bonne réponse du GPT-5.4 elle-même, mais aussi la façon dont le modèle y est parvenu : au lieu d'une énumération brute, il a remarqué la structure et trouvé un chemin plus court. Selon l'auteur, l'approche du modèle s'est avérée "propre et élégante".
"Ma singularité vient de se produire… et de l'autre côté il y a la vie
— s'étendant à l'infini !"
À quelle vitesse le résultat a-t-il grandi
L'histoire est importante non seulement en raison d'un beau problème, mais en raison de la vitesse des progrès. Lorsque FrontierMath a été lancé fin 2024, les meilleurs modèles résolvaient moins de 2 % des problèmes. Sur seize mois, les résultats ont augmenté d'un ordre de grandeur, et non seulement sur les exemples ouverts, mais aussi sur l'ensemble caché auquel OpenAI n'avait pas d'accès direct. Cela a de l'importance car l'argument sur "l'ajustement aux réponses" reste l'objection principale des sceptiques chaque fois qu'un nouveau modèle montre un grand saut en mathématiques.
- Fin 2024 : les meilleurs modèles résolvent moins de 2 % des problèmes de FrontierMath.
- Milieu 2025 : GPT-5 Pro atteint 13 % au Tier 4.
- Janvier 2026 : GPT-5.2 Pro monte à 31 % au Tier 4.
- Mars 2026 : GPT-5.4 Pro atteint 50 % sur les niveaux 1–3 et 38 % au Tier 4.
Le résultat sur les problèmes cachés se distingue séparément. Selon l'article, GPT-5.4 a résolu 55 % de tels exemples contre 25 % de problèmes auxquels OpenAI aurait théoriquement pu être plus proche sur la base des données et des solutions. Cela ne prouve pas la "pureté" absolue de l'expérience, mais renforce considérablement la version selon laquelle le modèle sait vraiment comment raisonner sur de nouveaux problèmes plutôt que de simplement reproduire des modèles vus. Pour les benchmarks de recherche, ceci est peut-être le test le plus sensible : la nouveauté importe plus que toute démonstration sur des exemples déjà connus.
Pourquoi le scepticisme n'a pas disparu
Malgré toute la force du cas, l'histoire ne se réduit pas à la formule "la machine pense déjà comme un humain". Dans la même exécution d'évaluation, GPT-5.4 a résolu un autre problème de Tier 4, mais l'analyse préliminaire a montré que le modèle aurait pu s'appuyer sur un ancien préprint de 2011 que l'auteur du problème lui-même ne connaissait pas. C'est un bon exemple de la façon dont la frontière s'estompe entre le raisonnement indépendant et la recherche très efficace dans la littérature, surtout si le modèle peut travailler avec le web et collecter rapidement des sources rares.
Il y a aussi une deuxième couche de questions — l'indépendance du benchmark lui-même. FrontierMath est financé par OpenAI, et l'entreprise a accès à une portion importante des problèmes et des solutions. L'ensemble caché, sur lequel GPT-5.4 a également montré de bons résultats, allège partiellement la tension, mais ne supprime pas complètement le conflit d'intérêts.
Par conséquent, il est raisonnable de lire cette histoire dans deux modes simultanément : comme un signal réel d'une augmentation marquée des capacités mathématiques des modèles, et comme un rappel que l'industrie a toujours besoin de tests indépendants, de méthodologies transparentes et de vérification externe des résultats frappants.
Qu'est-ce que cela signifie
La conclusion principale n'est pas que les mathématiciens doivent être remplacés. C'est plutôt l'inverse : l'histoire de Naskręcki montre que les modèles de pointe commencent à fonctionner comme un partenaire de recherche qui réduit l'espace de recherche et propose des mouvements inattendus. Pour la science et la R&D appliquée, c'est un changement sérieux : l'IA ressemble de moins en moins à une calculatrice et de plus en plus — à un coauteur dont les idées ne peuvent plus être ignorées, mais doivent toujours être vérifiées avec soin.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.