Les réseaux neuronaux restent faibles en multiplication : pourquoi l'AI écrit du code mais se trompe en arithmétique
Les grands modèles de langage impressionnent en code et en texte, mais ils se trompent encore souvent en multiplication. La raison est simple : un LLM prédit…
Traité par IA depuis Habr AI ; édité par Hamidun News
Les grands modèles de langage peuvent écrire du code, traduire des textes et maintenir de longues conversations, mais ils ont encore une faiblesse systémique en matière de multiplication. Le problème est que la plupart des réseaux de neurones ne « calculent » pas les nombres étape par étape, mais prédisent plutôt la séquence de symboles la plus probable — et cela devient rapidement évident en arithmétique.
Pourquoi Cela Se Produit
Pour les humains, la multiplication est un algorithme : diviser les nombres en chiffres, multiplier les parties, reporter les dizaines et additionner les résultats intermédiaires. Pour un modèle de langage, une expression comme 37 × 48 est avant tout un modèle de texte, similaire à des millions d'autres séquences qu'il a vues pendant l'entraînement. Il ne lance pas une « calculatrice » intégrée par défaut, mais essaie plutôt de continuer la chaîne de manière statistiquement plausible. Sur des exemples courts et fréquents, cette approche donne parfois la bonne réponse, mais ce n'est pas la même chose qu'un calcul fiable.
«
Ils ne comptent pas de la manière que nous le comprenons, mais plutôt se souviennent et approximent les réponses. »
De ce fait, un modèle peut sembler très intelligent sur des tâches où une certaine variation de formulation est acceptable, mais échoue là où un seul résultat précis est nécessaire. Le texte, le code et même les résumés d'articles pardonnent souvent les petits écarts : le sens peut être transmis de différentes manières. En arithmétique, il n'existe pas un tel luxe. Une erreur d'un seul chiffre transforme une réponse correcte en une réponse incorrecte, et une belle explication n'aide pas. C'est précisément la raison pour laquelle le contraste entre « écrit de la poésie » et « se confond avec les tables de multiplication » semble si frappant.
Où les Modèles Échouent
Cela se voit mieux dans les tâches qui nécessitent une adhérence stricte étape par étape plutôt que la reconnaissance de modèles. Si un exemple est apparu plusieurs fois, le modèle peut reproduire la réponse presque sans erreur. Mais plus les nombres sont longs et plus il y a de retenues entre les chiffres, plus grande est la probabilité qu'il commence à improviser. Ajoutez un peu de texte supplémentaire au problème, un format inusuel ou plusieurs opérations d'affilée — et la probabilité de défaillance augmente sensiblement.
- Multiplication de nombres à plusieurs chiffres avec plusieurs retenues
- Combinaisons rares qui étaient presque absentes des données d'entraînement
- Tâches où les nombres sont mélangés avec du texte, des unités de mesure ou des conditions
- Chaînes de calculs où une erreur précoce casse toute la réponse suivante
- Vérifier son propre résultat sans outil externe
Le paradoxe est que la rédaction de code est souvent plus facile pour le modèle que de faire de l'arithmétique. En programmation, il s'appuie sur un vaste corpus de structures répétitives : syntaxe, fonctions typiques, bibliothèques connues, modèles de solution. Si on lui demande non pas de calculer lui-même, mais d'écrire un court programme pour effectuer le calcul, le résultat est souvent plus fiable. En d'autres termes, le modèle peut décrire avec succès une procédure ou générer un outil qui résout le problème, mais n'exécute pas toujours de manière fiable cette procédure dans sa propre « tête ».
Comment Cela est Contourné
C'est précisément pour cette raison que les systèmes d'IA pratiques sont de plus en plus complétés par des outils externes. Si un produit a besoin de mathématiques précises, le modèle ne doit pas deviner la réponse de mémoire : il est préférable de le diriger vers une calculatrice, un interpréteur Python, un moteur SQL ou un module de calcul spécialisé. Cette approche est déjà devenue standard dans les systèmes d'agents et les scénarios d'entreprise où le coût de l'erreur est trop élevé.
Il existe également des tentatives plus profondes pour résoudre le problème au niveau de l'architecture. Les chercheurs expérimentent avec des modèles qui fonctionnent mieux avec les règles symboliques, conservent les états intermédiaires ou s'entraînent plus précisément à exécuter les opérations étape par étape. Les techniques comme le chain-of-thought aident également, où le modèle énumère la solution étape par étape, mais ce n'est pas de la magie : si le mécanisme sous-jacent repose toujours sur la prédiction de tokens, une longue chaîne de raisonnement peut aussi mener soigneusement au mauvais nombre. La fiabilité ne vient pas d'une belle explication, mais d'une boucle de calcul vérifiable.
Ce Que Cela Signifie
La conclusion principale est simple : un langage impressionnant n'est pas égal à un calcul précis. À mesure que l'IA passe de plus en plus du rôle de compagnon conversationnel au rôle d'outil de travail, il devient de plus en plus important de distinguer les tâches « générer une réponse plausible » et les tâches « obtenir un résultat garantissement correct » — et d'utiliser des mécanismes séparés de vérification et de calcul pour la deuxième classe.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.