MIT News→ original

Les chercheurs du MIT apprennent à l'IA à dire honnêtement "je ne suis pas sûr" et à halluciner moins

Le MIT a démontré un moyen de réduire l'un des principaux problèmes des modèles de raisonnement—les erreurs confiantes. La nouvelle méthode RLCR enseigne à…

Traité par IA depuis MIT News ; édité par Hamidun News
Les chercheurs du MIT apprennent à l'IA à dire honnêtement "je ne suis pas sûr" et à halluciner moins
Source : MIT News. Collage: Hamidun News.
◐ Écouter l'article

Des chercheurs du MIT ont proposé un moyen de rendre les modèles de langage notablement plus honnêtes dans leurs réponses : non seulement résoudre la tâche, mais évaluer simultanément à quel point ils sont confiants dans leur propre conclusion. Cela semble être un ajustement mineur, mais en pratique, cela s'attaque à l'un des problèmes les plus frustrrants des modèles de raisonnement modernes — l'habitude de parler d'un ton confiant même lorsque la réponse a été essentiellement devinée. La nouvelle méthodologie ne réduit pas la qualité des réponses elles-mêmes ; au contraire, elle aide le modèle à mieux distinguer les cas où il connaît réellement quelque chose de ceux où il devrait reconnaître l'incertitude.

L'équipe MIT CSAIL formule le problème de manière assez directe : les modèles puissants d'aujourd'hui se comportent souvent comme la personne la plus bruyante de la pièce. Ils répondent avec la même confiance, que la logique ait fonctionné ou que le modèle ait simplement deviné. Selon les chercheurs, la raison réside dans le schéma même de l'apprentissage par renforcement actuellement utilisé pour développer les capacités de raisonnement.

Dans la variante typique, un modèle reçoit une récompense pour une réponse correcte et une pénalité pour une réponse incorrecte. Il y a presque pas d'états intermédiaires. Si un modèle arrive aléatoirement à un résultat correct, il est récompensé de la même manière que s'il avait soigneusement dérivé la solution.

Au fil du temps, cela pousse le système à toujours répondre, ne laissant aucune place pour la phrase « je ne suis pas sûr ». C'est précisément ce que MIT a tenté de corriger dans l'approche RLCR — Reinforcement Learning with Calibration Rewards. Au lieu d'une évaluation purement binaire, les chercheurs ont ajouté un autre composant à la fonction de récompense : le score de Brier, une métrique qui compare la confiance déclarée avec la précision réelle.

En pratique, après une chaîne de raisonnement, le modèle produit non seulement une réponse, mais aussi une évaluation numérique de sa propre confiance. S'il est trop confiant et se trompe, cela est pénalisé. Si, au contraire, il donne une réponse correcte mais sous-estime la confiance sans raison, cela est également pris en compte.

Les auteurs affirment qu'un tel schéma mène formellement à deux objectifs à la fois : une haute précision et une bonne calibration — c'est-à-dire une correspondance entre ce que le modèle dit de sa confiance et la fréquence à laquelle il a réellement raison. Les expériences ont été menées sur un modèle avec 7 milliards de paramètres. Selon MIT, RLCR a réduit l'erreur de calibration jusqu'à 90 pour cent par rapport à l'apprentissage par renforcement standard, tandis que la précision n'a pas baissé et a même augmenté dans certains tests.

L'effet s'est maintenu non seulement sur les tâches sur lesquelles le modèle a été entraîné, mais aussi sur de nouveaux ensembles de données, y compris six ensembles qu'il n'avait jamais vus auparavant. Les chercheurs ont séparément comparé la méthode avec des approches post-hoc, où la confiance est évaluée après l'entraînement via un classificateur externe. RLCR s'est avéré supérieur ici aussi : au lieu d'être un complément cosmétique à un modèle finalisé, il change le comportement du système pendant l'entraînement lui-même.

De plus, l'équipe MIT montre que l'apprentissage par renforcement standard n'améliore pas seulement pas la calibration, mais l'aggrave souvent : le modèle devient plus capable mais simultanément plus surconfiant. Il y a aussi une valeur pratique à cela. Si un modèle génère plusieurs options de réponse, vous pouvez choisir celle où il rapporte la confiance la plus élevée, ou pondérer les votes des candidats en tenant compte de cette évaluation.

Selon les auteurs, cela améliore à la fois la précision et la calibration à mesure que les ressources informatiques pour l'inférence augmentent. Un autre résultat intéressant : lorsque les chercheurs ont entraîné des classificateurs séparés sur les sorties du modèle, le raisonnement explicite sur sa propre incertitude a fourni un signal supplémentaire utile, en particulier pour les modèles plus compacts. En d'autres termes, la tentative du modèle d'articuler ce qu'il sait et ce qu'il ne sait pas s'avère ne pas être un élément décoratif, mais une partie substantielle de la prédiction.

Qu'est-ce que cela signifie en pratique ? Si l'approche RLCR se dimensionne à des modèles commerciaux plus importants, l'industrie a la chance de réduire non seulement le nombre d'erreurs explicites, mais aussi le nombre d'erreurs dangereuses masquées par un ton confiant. Pour des domaines comme la médecine, le droit, la finance et l'analyse d'entreprise, c'est particulièrement important : les utilisateurs ont besoin non seulement d'obtenir une réponse, mais de comprendre à quel point ils peuvent lui faire confiance.

Le travail du MIT offre non pas un autre filtre en haut d'un modèle déjà entraîné, mais une idée plus fondamentale : enseigner à l'IA non seulement à trouver des solutions, mais à mesurer honnêtement les limites de ses propres connaissances. C'est précisément cette habitude qui pourrait s'avérer être l'une des mises à jour les plus utiles pour la prochaine génération de systèmes de raisonnement.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…