Les réseaux neuronaux peuvent-ils vraiment raisonner ? Étude des erreurs structurelles dans la logique des LLMs
Une étude systématique des capacités cognitives des grands modèles de langage (LLMs) a révélé leur incapacité à effectuer une véritable inférence logique. Au…
Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Les réseaux de neurones savent-ils vraiment raisonner ? Une étude des erreurs structurelles dans la logique des LLMs
Lorsque GPT-4 résout un problème de mathématiques ou que Claude analyse un document juridique complexe, l'observateur extérieur se pose naturellement la question : s'agit-il d'une véritable pensée ou d'une illusion ingénieuse ? Une nouvelle étude systématique des capacités cognitives des grands modèles de langage fournit une réponse inconfortable : très probablement la dernière. Les scientifiques ont identifié ce qu'ils appellent des « défaillances structurelles »—des lacunes prévisibles et reproductibles dans la logique qui exposent la différence fondamentale entre simuler le raisonnement et raisonner réellement.
Au cours des deux dernières années, les modèles de langage ont obtenu des résultats impressionnants sur les benchmarks académiques, ce qui a suscité un large optimisme quant à leurs capacités intellectuelles. Les entreprises ont commencé à déployer des LLMs en médecine, droit, analyse financière—des domaines où le coût d'une erreur se mesure non seulement en réputation mais en vies humaines. C'est précisément cet écart entre les affirmations publiques sur des systèmes « intelligents » et leurs capacités réelles qui a incité les chercheurs à mener une étude méthodique et systématique de la manière dont les modèles gèrent réellement les tâches nécessitant une inférence logique séquentielle.
L'essence de la découverte est ceci : les LLMs ne construisent pas des chaînes de raisonnement—ils recherchent des continuations de texte statistiquement plausibles. Cette distinction peut sembler subtile, mais en pratique elle est critique. Lorsqu'un modèle rencontre une tâche similaire à celles présentes dans ses données d'entraînement, il produit une réponse convaincante. Mais si vous modifiez les conditions ne serait-ce que légèrement—reformulez la question, ajoutez une étape intermédiaire ou exigez un raisonnement en sens inverse—le système commence à échouer non pas aléatoirement, mais systématiquement. Les chercheurs ont appelé ces défaillances « structurelles » car elles surviennent non pas du manque de données, mais des limitations architecturales de l'approche elle-même.
Les expériences avec des tâches multi-étapes sont particulièrement révélatrices. Les modèles démontrent quelque chose comme une « dégradation de profondeur » : plus la chaîne de raisonnement requise est longue, plus la probabilité d'une erreur à un certain stade intermédiaire est élevée. De plus, le modèle reconnaît rarement sa propre défaillance—il continue à générer un texte confiant et grammaticalement impeccable qui semble une réponse correcte mais contient des contradictions logiques. C'est justement cette confiance excessive qui rend les erreurs structurelles particulièrement dangereuses : l'utilisateur ne reçoit aucun signal indiquant que quelque chose a mal tourné.
L'étude remet également en question l'interprétation populaire du succès des modèles aux tests. Les résultats élevés aux benchmarks standards peuvent s'expliquer non pas par le développement de capacités logiques, mais par un « étalonnage » de plus en plus précis aux motifs présents dans les ensembles de test. En d'autres termes, le modèle apprend à répondre correctement à un certain type de question sans acquérir de compréhension transférable. C'est la différence fondamentale entre la mémorisation et la compréhension—et elle explique pourquoi les LLMs peuvent simultanément résoudre des problèmes au niveau du doctorat et buter sur des énigmes élémentaires formulées de manière non conventionnelle.
Pour l'industrie, ces conclusions ont des conséquences pratiques concrètes. Le déploiement de modèles de langage dans des infrastructures critiques—diagnostic médical, analyse juridique, gestion des risques—nécessite une reprise en considération. Les entreprises qui construisent des produits en supposant que les LLMs sont capables d'inférence logique fiable prennent des risques qu'il est difficile de quantifier à l'avance. Les chercheurs n'appellent pas à l'abandon de ces technologies, mais insistent sur des normes de vérification plus strictes : chaque application doit s'accompagner de paramètres clairs sur où le modèle fonctionne de manière prévisible et où il ne fonctionne pas.
La question fondamentale que soulève cette étude dépasse le cadre technique : qu'est-ce que nous créons réellement ? Si les modèles de langage sont des systèmes hautement précis de prédiction du prochain jeton plutôt que des systèmes de compréhension, alors tout le récit sur « l'intelligence artificielle » a besoin d'être reformulé. La simulation convaincante du raisonnement peut être un outil utile, mais ce n'est pas la même chose que raisonner. Comprendre cette limite n'est pas du pessimisme, mais une condition nécessaire pour construire quelque chose de véritablement fiable sur la base des LLMs.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.