GPT-5.2 obtient les meilleurs résultats aux examens d'entrée des universités de Tokyo et Kyoto
GPT-5.2 en mode de raisonnement a obtenu les meilleurs résultats aux examens d'entrée des universités de Tokyo et Kyoto. Dans les tests de LifePrompt, le…
Traité par IA depuis 3DNews AI ; édité par Hamidun News
GPT-5.2 a atteint un autre jalon longtemps considéré comme un territoire exclusivement humain : en testant sur les questions d'examen d'entrée des universités de Tokyo et Kyoto, le modèle a démontré des résultats supérieurs à ceux des candidats de cette année. Et ce n'est pas simplement une question de dépasser un seuil — selon LifePrompt, le système en mode de raisonnement a atteint un niveau qui dépasse même les plus hautes notes de passage sur plusieurs programmes, dont la médecine.
Les tests ont été menés par LifePrompt, en comparant les réponses du modèle avec les questions réelles d'examen et les résultats de la campagne d'admission actuelle. Il est important de noter que ceci n'est ni une participation officielle du réseau de neurones aux admissions universitaires japonaises, ni une histoire d'inscription : c'est plutôt un test de stress des capacités académiques du modèle dans l'environnement le plus compétitif possible. Mais c'est précisément ce format qui s'avère précieux : il permet d'évaluer non pas un benchmark abstrait, mais comment l'IA gère les tâches complexes sur lesquelles les candidats les plus forts sont éliminés.
Le choix du lieu n'est pas non plus accidentel. Les universités de Tokyo et Kyoto sont les deux institutions les plus prestigieuses et les plus sélectives du Japon, et les programmes de médecine se classent traditionnellement parmi les plus difficiles d'accès. Si le modèle dépassait réellement le seuil supérieur des notes de passage de tels programmes, cela signifierait bien plus que de simples connaissances.
C'est la preuve d'une capacité stable à traiter des tâches exigeant de la logique, de longues chaînes de raisonnement, des calculs précis et la capacité à maintenir le contexte entre plusieurs conditions. Selon la description du test, le mode de raisonnement a joué un rôle clé. Dans ce mode, le modèle consacre plus de temps à l'analyse interne du problème avant de fournir la réponse finale.
Pour les examens d'entrée, c'est particulièrement important : de telles questions punissent souvent non pas l'absence de connaissance, mais un seul maillon intermédiaire incorrect. Par conséquent, les progrès de ces systèmes ressemblent de moins en moins à des « devinettes statistiques » et de plus en plus à une résolution complète de problèmes dans un format étape par étape. En même temps, cela n'élimine pas les limitations : même une note exceptionnelle sur des ensembles d'examens ne prouve pas encore que le modèle est également fiable en dialogue en direct, dans les travaux de recherche ou dans les décisions cliniques.
Pour l'éducation, cela signale des implications dans plusieurs directions. D'abord, les examens standards remplissent de moins en moins bien la fonction de pur filtre de connaissances si un puissant modèle de raisonnement peut systématiquement les réussir mieux que la plupart des gens. Deuxièmement, la valeur de la préparation elle-même change : la résolution mécanique de tâches familières devient moins importante que la capacité à formuler des questions, vérifier les étapes intermédiaires, défendre des conclusions et travailler en conjonction avec les outils IA.
Enfin, de tels résultats poussent les universités à reconsidérer les méthodes d'évaluation — ajouter davantage de composantes orales, de travail de projet et de tâches où l'argumentation indépendante est critique, pas seulement la réponse finale sur une feuille de test. Pour le marché de l'IA, c'est aussi une démonstration de la direction vers laquelle se dirige la concurrence entre modèles. Le système gagnant n'est plus celui qui formule le texte le plus élégamment, mais celui qui soutient des charges cognitives longues et maintient la précision sous la pression de conditions complexes.
Les examens académiques sont précieux précisément parce qu'ils ont un coût d'erreur élevé et des critères de succès clairs. Si un modèle commence à gagner régulièrement dans cet environnement, son potentiel s'étend rapidement au-delà de l'éducation — vers l'analyse, les calculs d'ingénierie, la préparation aux certifications et d'autres domaines où la pensée disciplinée est essentielle. La conclusion principale est simple : la barre pour l'IA « intelligente » a été relevée une fois de plus, et la question n'est plus si un modèle peut réussir un examen difficile, mais comment les gens et les institutions doivent restructurer les règles autour de ce fait.
Pour l'instant, de tels tests restent plutôt une démonstration de capacités qu'un remplacement de l'expertise véritable. Mais l'écart entre les tâches académiques pour les humains et pour les puissants modèles continue de se réduire rapidement.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.