L’AI d’OpenAI a dépassé les médecins en diagnostic — mais les chercheurs restent prudents
Une LLM d’OpenAI a trouvé le bon diagnostic dans 82 % de cas tirés d’histoires réelles des urgences — davantage que les médecins (79 % et 70 %). Mais les cherch

Le modèle de langage d'OpenAI a surpassé les médecins en précision diagnostique sur des données réelles d'urgence pour la première fois. La recherche a été publiée dans la revue Science le 30 avril.
Ce que l'Étude a Montré
Le modèle o1-preview d'OpenAI a analysé les dossiers médicaux de 76 cas réels au service des urgences. À différents stades du traitement—à l'admission, après examen médical, après transfert dans un autre service—le modèle a formulé des diagnostics en parallèle avec deux médecins. Et il a deviné plus souvent : au stade final, 82 % de diagnostics corrects contre 79 % et 70 % pour les médecins. Curieusement, les humains comme le modèle ont montré de meilleurs résultats quand il y avait plus d'informations. Mais l'IA a conservé un avantage à tous les stades, même avec des données incomplètes.
- 82 % de précision diagnostique contre 79 % et 70 % pour les médecins
- Testé sur des dossiers réels d'urgence
- Le modèle a analysé des ensembles complets de détails
- A amélioré les résultats à chaque nouvelle information
Mais les Médecins Sont Prudents
Les auteurs de l'étude s'empressent de clarifier : l'IA ne remplace pas les médecins. « Je ne pense pas que nos résultats signifient que l'IA déplacera les médecins », dit le coauteur Arjun Manrai de la Harvard Medical School. Son collègue Adam Rodman, instructeur en médecine à Boston, ajoute : « Les résultats sont super, ne me comprenez pas mal, mais je suis légèrement préoccupé par la façon dont ils pourraient être utilisés.
» Le principal problème est qu'il n'existe pas de norme unifiée pour évaluer les LLMs sur les tâches médicales. Certains chercheurs considèrent c'est un succès si un modèle identifie 5 des 7 diagnostics possibles. D'autres voient cela comme un échec complet.
Le même résultat est évalué différemment.
Le Problème de Fiabilité des Chatbots
Les recherches parallèles montrent que les chatbots mentent souvent sur les questions médicales. Près de la moitié des réponses contiennent des erreurs : sources fabriquées, conseils inexacts, présentation confiante de mensonges. Le modèle semble aussi convaincant, qu'il soit correct ou non.
«
Ces modèles sont utilisés tous les jours, et il y a un certain risque que personne ne mesure ou n'atténue », — Arya Rao, Harvard
Pour un médecin, la tâche est plus complexe : lorsque le modèle fournit une consultation, le médecin doit comprendre rapidement si c'est correct ou une hallucination. Bien sûr, un médecin comprendra mieux quelle information compte. Mais détecter les mensonges dans une réponse convaincante est un défi.
Ce que Cela Signifie
OpenAI a déjà lancé ChatGPT pour les médecins et les soins de santé. La technologie avance plus vite que la médecine ne peut la réguler et la tester. Des essais cliniques réels et des processus de travail clairs sont nécessaires, où le médecin utilise l'IA comme assistant en consultation, pas comme réponse finale. La vitesse de l'innovation est importante, mais la responsabilité est encore plus nécessaire.