ChatGPT a bien diagnostiqué cinq cas mais a échoué sur la planification du traitement
ChatGPT a réussi cinq cas sur cinq pour le diagnostic principal dans l'expérience, y compris MGUS et rhabdomyolyse induite par les statines. Cependant, des…
Traité par IA depuis Habr AI ; édité par Hamidun News
L'expérience, dans laquelle on attendait de ChatGPT au moins une erreur diagnostique, s'est terminée par un résultat inattendu pour les auteurs : le modèle a correctement identifié le diagnostic principal dans les cinq cas médicaux. Mais la victoire au niveau de la formulation du diagnostic ne s'est pas transformée en une victoire générale dans la comparaison clinique. L'écart le plus notable est devenu apparent plus loin — dans le plan d'action pratique après la réponse : quels examens sont nécessaires avant le début de la thérapie, vers quels spécialistes orienter le patient, quels indicateurs cibles surveiller et quand répéter les analyses.
C'est précisément à ce stade que ChatGPT a plus souvent perdu face au service spécialisé MedAssist. La comparaison comprenait cinq cas : syndrome métabolique, hypothyroïdie subclinique, périménopause, MGUS et rhabdomyolyse induite par les statines. Dans tous les cas, ChatGPT a trouvé le diagnostic principal, ce qui est remarquable pour un LLM universel.
Les auteurs reconnaissent qu'avant d'exécuter le test, ils s'attendaient à au moins une erreur sérieuse, mais cela ne s'est pas produit. Cependant, en médecine, le diagnostic lui-même n'est que la première partie de la tâche. L'étape suivante est tout aussi importante : est-il sûr de commencer le traitement, quels signaux d'alerte vérifier à l'avance et quels tests de clarification sont nécessaires pour ne pas manquer les contre-indications ou les risques associés.
C'est ici que la différence entre les modèles est devenue systémique. Sur quatre cas courants, ChatGPT a répondu moins bien à la question de ce que le patient devrait faire au cours des deux prochaines semaines. Il ne s'agissait pas d'une formulation élégante, mais d'une logique clinique appliquée : par exemple, rappeler le PSA avant la thérapie de remplacement de la testostérone, la mammographie avant de prescrire une thérapie hormonale ménopausale, les niveaux cibles des indicateurs et les délais de retesting.
Dans le cas de la rhabdomyolyse, l'interprétation du ratio AST/ALT s'est également avérée importante — un détail qui affecte la compréhension des causes des changements dans les résultats d'analyse et la stratégie de prise en charge ultérieure. Mais la comparaison a également eu un exemple inverse. Dans le cas du MGUS, gammapathie monoclonale de signification indéterminée, c'est MedAssist qui s'est avéré plus faible.
ChatGPT a clairement calculé le rapport albumine-globuline et énuméré séparément les études de confirmation que le patient devrait apporter à un hématologue. Les auteurs écrivent directement que leur service n'a fait ni l'un ni l'autre, et c'est pourquoi l'analyse de ce cas s'est avérée être la plus détaillée. Un tel épisode est important non seulement comme une défaite locale, mais comme un rappel : un produit spécialisé n'obtient pas un avantage automatiquement simplement parce qu'il a été créé pour une tâche étroite.
Les auteurs notent séparément un possible conflit d'intérêts : le texte a été préparé par l'équipe qui développe MedAssist, l'un des deux services étant comparés. Ils ne tentent pas de le cacher et affirment qu'ils ont fixé la méthodologie à l'avance, publié les réponses des deux services verbatim, et analysé en détail leur propre cas malheureux plutôt que en passant. Cela n'élimine pas les questions sur la neutralité complète, mais rend le matériel plus utile que les démonstrations marketing typiques où seuls les exemples pratiques sont montrés.
Pour le lecteur, ce qui est le plus précieux ici est non pas le score par cas, mais la transparence sur où exactement les modèles sont forts et où ils commencent à faire des erreurs dans les solutions appliquées. La conclusion principale de ce test est assez directe : les grands modèles de langage peuvent déjà identifier systématiquement le diagnostic même dans les cas complexes, mais la qualité d'une réponse médicale ne peut pas être évaluée uniquement par la première ligne. Si le système a correctement nommé l'état mais n'a pas suggéré les examens obligatoires avant la thérapie, n'a pas tracé la route vers le spécialiste nécessaire et n'a pas clarifié les délais de suivi, le risque d'erreur ne disparaît pas.
Pour les développeurs de services médicaux IA, c'est un signal pour détourner l'attention des diagnostics impressionnants vers le scénario complet de prise en charge du patient. Et pour les utilisateurs — un rappel que la valeur de tels systèmes est déterminée non seulement par la précision de la reconnaissance, mais aussi par la sécurité de l'étape suivante.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.