MIT News→ original

MIT propose une métrique qui détecte les erreurs confiantes et les hallucinations des LLM

MIT a présenté une nouvelle façon de vérifier quand un modèle de langage semble confiant mais commet quand même des erreurs. Au lieu de seulement…

Traité par IA depuis MIT News ; édité par Hamidun News
MIT propose une métrique qui détecte les erreurs confiantes et les hallucinations des LLM
Source : MIT News. Collage: Hamidun News.
◐ Écouter l'article

Des chercheurs du MIT ont proposé une nouvelle façon de mesurer l'incertitude dans les grands modèles de langage et de détecter avec plus de précision les situations où une IA répond avec confiance mais se trompe. L'idée est simple : les utilisateurs doivent voir non seulement une réponse polie, mais aussi un signal sur le degré de fiabilité de cette confiance, en particulier lorsqu'il s'agit de tâches où les erreurs ont des conséquences réelles.

Pourquoi Les Anciennes Métriques Échouent

Aujourd'hui, l'un des moyens populaires de vérifier la fiabilité d'un LLM est de poser la même question plusieurs fois et de voir si le modèle répond de manière cohérente. Si les réponses correspondent, cela est souvent interprété comme une grande confiance. Le problème est que cette vérification ne mesure que la cohérence interne du modèle.

Elle montre le degré de confiance que le modèle a en lui-même, mais ne dit pas s'il a vraiment raison. Pour une interface, c'est un signal pratique, mais pas toujours utile. C'est ici qu'émerge un scénario dangereux : le modèle peut produire à plusieurs reprises la même réponse incorrecte en conservant l'apparence de fiabilité.

Pour les utilisateurs, cela est particulièrement risqué dans les tâches où les erreurs coûtent cher—par exemple, en médecine, en finance ou en analyse appliquée. Dans ces cas, une hallucination confiante semble plus convaincante qu'une réponse prudente mais honnête avec des réserves. C'est pourquoi les chercheurs ont décidé de mesurer non seulement la confiance en soi du modèle, mais aussi la probabilité que ce soit le bon choix pour la question donnée.

Comment Fonctionne La Nouvelle Méthode

L'équipe du MIT a complété la métrique familière d'auto-cohérence avec un autre signal : le désaccord entre les modèles. Au lieu de poser la même question plusieurs fois au même LLM, les chercheurs comparent la réponse du modèle cible avec les réponses d'un petit groupe de modèles similaires d'échelle comparable et de classe architecturale. Si de tels modèles commencent à diverger significativement sur le plan sémantique, cela devient un indicateur important que la réponse originale peut être peu fiable, même si le modèle cible semble très confiant.

Un point important est que la comparaison ne mesure pas seulement la correspondance littérale des mots, mais la proximité sémantique des réponses. Cette approche reflète mieux l'accord ou le désaccord réel entre les modèles que la simple comparaison mot par mot.

Selon les chercheurs, en pratique, une variante étonnamment simple a fonctionné au mieux : utiliser des modèles créés par des entreprises différentes. Des schémas de sélection d'ensemble plus complexes ont été testés, mais n'ont offert aucun avantage par rapport à cette stratégie directe et transparente.

  • D'abord, le modèle cible dont la réponse doit être évaluée est sélectionné.
  • Ensuite, la même requête est adressée à plusieurs LLMs similaires.
  • Après cela, le système mesure comment les réponses s'alignent sémantiquement.
  • Cette métrique est combinée avec la métrique standard d'auto-cohérence.
  • Le résultat est un score d'incertitude totale.

Les auteurs appellent la deuxième composante incertitude épistémique : elle montre à quel point le modèle lui-même a été bien choisi pour la tâche spécifique. Combinée à l'incertitude aléatoire, qui reflète l'instabilité interne de la réponse, vous obtenez une image plus complète du risque. En termes simples, le système vérifie à la fois si le modèle se contredit lui-même et s'il diverge d'autres modèles plausibles. La méthode fonctionne en format boîte noire : elle ne nécessite que des réponses textuelles, sans accès aux logits ou aux états internes du modèle.

Où La Méthode Est La Plus Utile

Les chercheurs ont testé la métrique combinée sur dix tâches réalistes, incluant des scénarios de questions-réponses, de résumé, de traduction et de raisonnement mathématique. Dans la série principale d'expériences, ils ont comparé plusieurs modèles ajustés par instructions, avec des tests séparés sur les modèles d'API également. Dans ces tests, le score d'incertitude global a détecté plus fiablement les réponses peu fiables que chaque composant seul. La nouvelle approche a fonctionné particulièrement bien dans les tâches où il existe une seule bonne réponse, comme le questions-réponses factuelles ou la traduction.

Si un modèle répète la même réponse plusieurs fois, cela ne signifie

pas nécessairement que la réponse est correcte.

Il y a aussi une limitation importante. Pour les tâches plus ouvertes où plusieurs variantes de bonnes réponses sont acceptables, le signal de désaccord entre modèles peut être moins utile. En d'autres termes, s'il ne s'agit pas de faits mais de génération plus libre, le désaccord entre modèles seul n'indique pas toujours une erreur. Les auteurs notent directement que à l'avenir ils veulent adapter la technique spécifiquement pour de tels scénarios et enquêter séparément sur d'autres formes d'évaluation de l'incertitude interne du modèle.

Un autre avantage pratique est l'économie informatique. Dans certaines expériences, le calcul de l'incertitude totale nécessitait moins de requêtes que l'évaluation traditionnelle uniquement par auto-cohérence. Cela signifie non seulement des coûts d'inférence plus bas, mais aussi potentiellement une consommation d'énergie inférieure avec l'utilisation à grande échelle de telles vérifications. Pour la production, c'est un argument important : si une métrique est à la fois plus précise et moins chère, elle a beaucoup plus de chances de se retrouver dans de vrais produits d'IA que de rester une idée purement académique.

Ce Que Cela Signifie

Pour l'industrie, c'est un pas de l'évaluation « à quel point le modèle semble confiant » à l'évaluation « à quel point on peut faire confiance à cette confiance ». Si l'approche s'installe en production, les services d'IA pourront avertir plus précisément des hallucinations, et les utilisateurs seront moins susceptibles d'accepter une erreur qui sonne convaincante comme une réponse crédible. C'est particulièrement important pour tous les scénarios où les LLMs fonctionnent déjà non comme un jouet, mais comme un outil de travail qui influence les décisions, l'argent et les processus quotidiens d'une entreprise.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…