Habr AI→ original

AI neuro-symbolique : comment enfin amener les modèles de langage à faire des calculs

Les modèles de langage ne savent toujours pas calculer, et le problème ne vient ni de la taille du modèle ni de la qualité de l’entraînement. Un chercheur…

Traité par IA depuis Habr AI ; édité par Hamidun News
AI neuro-symbolique : comment enfin amener les modèles de langage à faire des calculs
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Les plus grandes entreprises technologiques du monde ont investi des dizaines de milliards de dollars dans des modèles de langage capables d'écrire du code, de traduire des textes et de générer un raisonnement cohérent sur n'importe quel sujet. Mais demandez à l'un d'eux de diviser 7429 par 17 — et la loterie commence. Parfois la réponse sera correcte, parfois non, et parfois le modèle produira une hallucination confiante indistinguible du résultat correct. Ce n'est pas un bug qui peut être corrigé avec un patch. C'est une limitation fondamentale de l'architecture, et l'un des chercheurs sur la plateforme Habr a non seulement soulevé le problème, mais a proposé une solution fonctionnelle.

Avant de comprendre la solution, il vaut la peine de comprendre pourquoi le problème existe en premier lieu. Les modèles de langage basés sur l'architecture Transformer traitent l'information par des transformations mathématiques continues — multiplications matricielles, fonctions d'activation, mécanismes d'attention. Tout cela fonctionne magnifiquement pour les tâches où les modèles, le contexte et les estimations approximatives importent. Mais l'arithmétique est une opération discrète. Deux plus deux égale exactement quatre, ni 3,97 ni 4,02. Quand un réseau neuronal essaie d'imiter des calculs précis par approximation, il échoue inévitablement — particulièrement sur des nombres qui n'ont pas figuré dans l'ensemble d'entraînement ou qui sortent des plages familières.

L'industrie a essayé des contournements. Le prompting Chain-of-Thought force le modèle à raisonner étape par étape, ce qui améliore les résultats mais ne résout pas le problème fondamental — chaque étape de la chaîne est toujours exécutée par la même architecture approximative. L'ajustement fin sur les tâches mathématiques aide dans des scénarios étroits, mais ne se généralise pas. Augmenter la taille de la fenêtre de contexte et l'échelle du modèle produit des améliorations marginales au coût de dépenses informatiques colossales. Finalement, les entreprises en sont arrivées à une solution paradoxale : connecter des calculatrices ordinaires aux réseaux de neurones les plus puissants par des appels d'outils. Cela fonctionne, mais ressemble à une béquille attachée à un vaisseau spatial.

Le chercheur a emprunté une voie différente, proposant une architecture neurosymbolique — un hybride dans lequel les composants du réseau neuronal font ce qu'ils font vraiment bien, tandis que les modules symboliques prennent en charge les tâches nécessitant de la précision. L'idée n'est pas nouvelle en termes académiques — l'IA neurosymbolique est discutée dans les cercles scientifiques depuis plusieurs années, et des chercheurs comme Yoshua Bengio et Gary Marcus ont longtemps souligné la nécessité de combiner deux paradigmes. Mais la distance entre la discussion théorique et la mise en œuvre fonctionnelle est énorme, et c'est cette distance que l'auteur a tenté de surmonter.

L'essence de l'architecture proposée est un réseau neuronal sémantique dans lequel le modèle ne tente pas de calculer directement, mais reconnaît le type de tâche et délègue l'exécution au module symbolique correspondant. Le réseau neuronal agit comme un interprète d'intentions et un routeur, tandis que les opérations précises sont effectuées par des algorithmes déterministes. Ceci est fondamentalement différent de l'approche des outils externes : au lieu d'un appel API lourd à une calculatrice, la logique symbolique est intégrée directement dans l'architecture du modèle, lui permettant de fonctionner plus rapidement et de manière plus fiable.

Les résultats expérimentaux décrits par l'auteur confirment la viabilité de l'approche, bien qu'il soit prématuré de parler de révolution. La question clé est la scalabilité. L'arithmétique est le cas le plus simple du raisonnement symbolique. Il est beaucoup plus complexe d'intégrer des modules symboliques pour l'inférence logique, la planification ou la vérification de faits. Si l'architecture peut s'étendre à ces domaines, elle changera vraiment le paysage. Sinon, elle restera une solution élégante mais de niche.

Pour l'industrie, l'importance de ce travail dépasse la mise en œuvre spécifique. Il met en évidence une tendance qui gagne de l'ampleur ces derniers mois : la simple mise à l'échelle des réseaux de neurones atteint un plafond, et l'avenir appartient aux systèmes hybrides. OpenAI, Google et Anthropic expérimentent déjà diverses formes d'intégration neurosymbolique, bien qu'ils n'en parlent pas toujours ouvertement. Le fait qu'un chercheur indépendant propose des idées compétitives en code ouvert témoigne de la maturité de la communauté et de la démocratisation de la recherche en IA.

En fin de compte, le travail pose la bonne question : ne devrions-nous pas cesser de forcer les réseaux de neurones à faire ce pour quoi ils n'ont pas été créés, et permettre plutôt à chaque composant du système de faire ce qu'il fait le mieux ? La réponse semble évidente. Il ne reste plus qu'à la mettre en œuvre à grande échelle.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…