IEEE Spectrum AI→ original

Les erreurs de raisonnement de l'IA sont plus dangereuses que les réponses incorrectes

Il est largement connu que l'intelligence artificielle (IA) commet encore des erreurs. Cependant, un problème plus grave pourrait être les lacunes dans la…

Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Les erreurs de raisonnement de l'IA sont plus dangereuses que les réponses incorrectes
Source : IEEE Spectrum AI. Collage: Hamidun News.
◐ Écouter l'article

Il est largement connu que l'intelligence artificielle (IA) commet encore des erreurs. Cependant, un problème plus grave pourrait être les lacunes dans la façon dont elle arrive à ses conclusions. Alors que l'IA générative est de plus en plus utilisée comme assistant plutôt que simplement comme un outil, deux nouvelles études montrent que la logique de raisonnement des modèles peut avoir des conséquences graves dans des domaines critiques tels que la santé, le droit et l'éducation.

Au cours des dernières années, la précision des grands modèles de langage (LLMs) dans la réponse aux questions sur divers sujets a augmenté de manière significative. Cela a suscité un intérêt croissant pour le potentiel de la technologie dans des domaines tels que le diagnostic médical, l'accompagnement thérapeutique ou le fonctionnement en tant que tuteur virtuel. Les rapports anecdotiques suggèrent que les utilisateurs utilisent déjà largement les LLMs prêts à l'emploi pour de telles tâches, avec des résultats mitigés.

Récemment, une femme en Californie a annulé un avis d'expulsion en utilisant l'IA pour obtenir un conseil juridique, mais un homme de 60 ans a souffert d'un empoisonnement au bromure après avoir eu recours à ces outils pour des conseils médicaux. Les thérapeutes avertissent que l'utilisation de l'IA pour soutenir la santé mentale aggrave souvent les symptômes des patients.

Les nouvelles recherches suggèrent qu'une partie du problème réside dans le fait que ces modèles raisonnent de manière fondamentalement différente des humains, ce qui peut les faire « s'effondrer » lorsqu'ils résolvent des problèmes plus complexes. Un article récent dans Nature Machine Intelligence a découvert que les modèles ont du mal à distinguer entre les croyances des utilisateurs et les faits, et un article non publié sur arXiv affirme que les systèmes multi-agents conçus pour fournir des conseils médicaux sont sujets aux défauts de raisonnement qui pourraient compromettre le diagnostic.

« À mesure que nous passons de l'IA simplement en tant qu'outil à l'IA en tant qu'agent, le 'comment' devient de plus en plus important », déclare James Zu, professeur associé de science des données biomédicales à la Faculté de médecine de Stanford et auteur principal de l'article dans Nature Machine Intelligence. « Une fois que vous l'utilisez comme un substitut pour un consultant, un tuteur, un médecin ou même un ami, la réponse finale n'est pas la seule chose qui compte. Le processus entier et la conversation entière comptent vraiment. »

Les problèmes de la manière dont les modèles prennent des décisions peuvent être particulièrement problématiques dans les établissements médicaux. Il existe un intérêt croissant pour l'utilisation de systèmes multi-agents, dans lesquels plusieurs agents d'IA participent à une discussion collaborative pour résoudre un problème, dans l'espoir de reproduire les équipes interdisciplinaires de médecins qui diagnostiquent les conditions médicales complexes, déclare Lequan Yu, professeur associé d'IA médicale à l'Université de Hong Kong. Par conséquent, lui et ses collègues ont décidé d'enquêter sur la façon dont ces systèmes raisonnent pour résoudre des problèmes en testant six d'entre eux sur 3 600 cas réels provenant de six ensembles de données médicales.

Les deux groupes de chercheurs affirment que les défauts du raisonnement des modèles peuvent être retracés jusqu'à la façon dont ils sont entraînés. Les LLMs les plus récents sont entraînés à raisonner lors de la résolution de tâches complexes à plusieurs étapes en utilisant l'apprentissage par renforcement, où le modèle reçoit une récompense pour les chemins logiques qui mènent à la conclusion correcte. Cependant, ils sont généralement entraînés sur des tâches avec des solutions spécifiques, comme le codage et les mathématiques, qui conviennent mal aux tâches plus ouvertes, comme la détermination des croyances humaines subjectives, dit Zu.

L'accent mis sur la récompense des résultats corrects signifie également que la formation n'optimise pas les bons processus de raisonnement, dit Zhu. Et les ensembles de données incluent rarement les débats et les discussions nécessaires pour les systèmes médicaux multi-agents efficaces, ce qui, selon lui, peut expliquer pourquoi les agents s'accrochent à leurs opinions, qu'elles soient justes ou non.

L'amélioration des méthodes d'entraînement, en particulier en accordant une plus grande attention aux processus de raisonnement plutôt qu'aux seuls résultats finaux, est une étape clé. Le développement d'ensembles de données incluant des exemples de collaboration efficace et de débat peut également aider les modèles à développer une compréhension plus nuancée des problèmes complexes. Ce n'est qu'alors que nous pouvons faire confiance à l'IA dans les domaines critiques tels que la santé et l'éducation.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…