L’AI d’OpenAI a dépassé les médecins en diagnostic — mais les chercheurs restent prudents

Q: Источник материала?

Оригинальная публикация на IEEE Spectrum AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-17. Время чтения: 3 мин.

Une LLM d’OpenAI a trouvé le bon diagnostic dans 82 % de cas tirés d’histoires réelles des urgences — davantage que les médecins (79 % et 70 %). Mais les cherch

Rédaction de Hamidun News

Veille IA · IEEE Spectrum AI

2026-05-17· 2 min

L’AI d’OpenAI a dépassé les médecins en diagnostic — mais les chercheurs restent prudents — Source : IEEE Spectrum AI. Collage: Hamidun News.

◐ Écouter l'article

Le modèle de langage d'OpenAI a surpassé les médecins en précision diagnostique sur des données réelles d'urgence pour la première fois. La recherche a été publiée dans la revue Science le 30 avril.

Ce que l'Étude a Montré

Le modèle o1-preview d'OpenAI a analysé les dossiers médicaux de 76 cas réels au service des urgences. À différents stades du traitement—à l'admission, après examen médical, après transfert dans un autre service—le modèle a formulé des diagnostics en parallèle avec deux médecins. Et il a deviné plus souvent : au stade final, 82 % de diagnostics corrects contre 79 % et 70 % pour les médecins. Curieusement, les humains comme le modèle ont montré de meilleurs résultats quand il y avait plus d'informations. Mais l'IA a conservé un avantage à tous les stades, même avec des données incomplètes.

82 % de précision diagnostique contre 79 % et 70 % pour les médecins
Testé sur des dossiers réels d'urgence
Le modèle a analysé des ensembles complets de détails
A amélioré les résultats à chaque nouvelle information

Mais les Médecins Sont Prudents

Les auteurs de l'étude s'empressent de clarifier : l'IA ne remplace pas les médecins. « Je ne pense pas que nos résultats signifient que l'IA déplacera les médecins », dit le coauteur Arjun Manrai de la Harvard Medical School. Son collègue Adam Rodman, instructeur en médecine à Boston, ajoute : « Les résultats sont super, ne me comprenez pas mal, mais je suis légèrement préoccupé par la façon dont ils pourraient être utilisés.

» Le principal problème est qu'il n'existe pas de norme unifiée pour évaluer les LLMs sur les tâches médicales. Certains chercheurs considèrent c'est un succès si un modèle identifie 5 des 7 diagnostics possibles. D'autres voient cela comme un échec complet.

Le même résultat est évalué différemment.

Le Problème de Fiabilité des Chatbots

Les recherches parallèles montrent que les chatbots mentent souvent sur les questions médicales. Près de la moitié des réponses contiennent des erreurs : sources fabriquées, conseils inexacts, présentation confiante de mensonges. Le modèle semble aussi convaincant, qu'il soit correct ou non.

«

Ces modèles sont utilisés tous les jours, et il y a un certain risque que personne ne mesure ou n'atténue », — Arya Rao, Harvard

Pour un médecin, la tâche est plus complexe : lorsque le modèle fournit une consultation, le médecin doit comprendre rapidement si c'est correct ou une hallucination. Bien sûr, un médecin comprendra mieux quelle information compte. Mais détecter les mensonges dans une réponse convaincante est un défi.

Ce que Cela Signifie

OpenAI a déjà lancé ChatGPT pour les médecins et les soins de santé. La technologie avance plus vite que la médecine ne peut la réguler et la tester. Des essais cliniques réels et des processus de travail clairs sont nécessaires, où le médecin utilise l'IA comme assistant en consultation, pas comme réponse finale. La vitesse de l'innovation est importante, mais la responsabilité est encore plus nécessaire.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com