ChatGPT, Gemini et Grok ont fourni des conseils médicaux problématiques dans la moitié de leurs réponses
Un nouvel audit des chatbots d'IA populaires a révélé un résultat décevant : environ la moitié des réponses aux questions médicales s'est avérée…
Traité par IA depuis Bloomberg Tech ; édité par Hamidun News
Un nouvel audit du BMJ Open révèle quelque chose de troublant : les chatbots d'IA populaires sont déjà devenus une partie de la vie quotidienne, mais en matière de santé, on ne peut pas s'y fier comme source indépendante de recommandations. Les chercheurs ont conclu qu'environ la moitié des réponses aux requêtes médicales s'avérait problématique — allant d'informations incomplètes à des conseils qui, sans consultation médicale, pourraient conduire une personne vers un traitement inefficace ou potentiellement dangereux. L'équipe de recherche a testé cinq services publics — ChatGPT, Gemini, Meta AI, Grok et DeepSeek — sur cinq sujets où les mythes et la désinformation sont particulièrement courants : le cancer, les vaccins, les cellules souches, la nutrition et la performance sportive.
En février 2025, chaque bot a reçu 50 questions, au total 250 réponses ont été analysées. Certaines requêtes étaient de type fermé, avec une réponse correcte selon le consensus scientifique, et d'autres de type ouvert, nécessitant que le système fournisse sa propre explication ou énumère les cours d'action possibles. Les résultats ont été sévères.
La moitié de toutes les réponses a été jugée problématique : 30% étaient modérément problématiques, 20% supplémentaires étaient sévèrement problématiques. En d'autres termes, il ne s'agit pas seulement de petites erreurs de formulation, mais aussi de conseils qui pourraient conduire les utilisateurs vers un traitement inefficace ou causer du tort s'ils sont suivis sans un médecin. Les modèles ont particulièrement mal performé sur les questions ouvertes : lorsqu'ils devaient formuler leur propre recommandation plutôt que de choisir parmi les options proposées, la proportion de réponses les plus risquées augmentait considérablement.
Il y avait des différences entre les services, bien qu'en moyenne tous ont démontré des vulnérabilités. Selon l'étude, Grok fournissait le plus souvent les réponses les plus problématiques : 29 de ses 50 réponses, soit 58%, ont été classées dans la catégorie la plus grave. Gemini, en revanche, a montré la plus faible proportion de réponses les plus problématiques et le plus grand nombre de réponses sans problèmes apparents.
Par sujet, les chatbots se sont mieux débrouillés sur les questions concernant les vaccins et le cancer, et plus mal sur les cellules souches, la performance sportive et la nutrition — des domaines où il y a particulièrement de nombreuses affirmations controverses, pratiques alternatives et conseils pseudoscientifiques dans la sphère publique. Un problème distinct concerne non seulement le contenu mais aussi la présentation. Les auteurs notent que les réponses étaient presque toujours écrites d'un ton assuré et rarement accompagnées de mises en garde ou d'avertissements.
Sur 250 requêtes, les chatbots ont refusé de répondre seulement deux fois, et les deux refus provenaient de Meta AI. La qualité des citations s'avéra faible : l'exhaustivité moyenne de la bibliographie était d'environ 40%, et aucun service n'a pu fournir une liste de sources complètement exacte, en partie en raison de citations inventées ou déformées. De plus, les textes étaient complexes pour un public général et en niveau de lecture correspondaient davantage à un diplômé universitaire qu'à quelqu'un cherchant simplement à comprendre rapidement son symptôme ou son ordonnance.
Les auteurs soulignent que ce n'est pas un jugement contre l'utilisation de l'IA en médecine ni une preuve de l'inutilité complète des chatbots. L'étude a des limitations : elle ne couvrait que cinq modèles, les a testés à un moment spécifique et a délibérément utilisé certaines requêtes comme test de stress pour exposer les vulnérabilités du système. Par conséquent, les 50% de réponses problématiques ne doivent pas être appliqués mécaniquement à chaque dialogue quotidien avec l'IA.
Mais la conclusion la plus importante est différente : quand un sujet est controversé, chargé émotionnellement ou déjà saturé de mythes médicaux, le modèle reproduit facilement un texte convaincant sans appui scientifique suffisant. Selon les données de Gallup du 15 avril 2026, 25% des Américains ont déjà utilisé des outils d'IA pour obtenir des informations ou des conseils médicaux, ce n'est donc pas une habitude de niche mais un comportement de masse. Le sens pratique de cette recherche est assez simple.
Un chatbot peut être utile comme navigateur rapide : expliquer un terme, aider à compiler une liste de questions pour un médecin ou suggérer ce qu'il faut encore clarifier. Mais il ne doit pas remplacer le diagnostic, le raisonnement clinique et la sélection du traitement. Pour les entreprises d'IA, c'est un signal pour renforcer les garde-fous protecteurs, la vérification des citations et les avertissements aux utilisateurs.
Pour les utilisateurs eux-mêmes, un rappel que le ton assuré d'un modèle ne garantit pas la fiabilité. Plus le coût de l'erreur est élevé, moins la machine a droit à l'improvisation.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.