Un réseau neuronal comme machine à remonter le temps : pourquoi les LLM sont entraînés à penser à l’ancienne
Les chercheurs ont trouvé une manière paradoxale d’utiliser les LLM : au lieu d’élargir les données d’entraînement, ils les limitent afin de créer des…
Traité par IA depuis Habr AI ; édité par Hamidun News
Les modèles de langage sont conventionnellement évalués par le volume de connaissances qu'ils possèdent : plus un réseau de neurones absorbe de données, plus il devient intelligent. Mais un groupe de chercheurs et d'enthousiastes a renversé cette logique. Ils réduisent délibérément les ensembles de données d'entraînement, en les limitant à des textes d'une époque historique spécifique, et obtiennent quelque chose de complètement inattendu : une intelligence artificielle qui raisonne comme si elle vivait au XVIIe ou au début du XXe siècle.
À première vue, l'idée semble être un caprice exotique. Pourquoi quelqu'un aurait-il besoin d'un modèle qui ne connaît rien aux antibiotiques, à la théorie de la relativité ou à Internet ? Cependant, il y a une motivation scientifique sérieuse derrière cela.
Les LLM modernes sont entraînés sur des corpus de textes couvrant toute l'histoire du langage écrit jusqu'à nos jours. Ils voient inévitablement le passé à travers le prisme du présent — avec sa terminologie, ses valeurs et ses connaissances accumulées. Un modèle entraîné uniquement sur des textes antérieurs à 1912 manque de cette lentille rétrospective.
Il ne reproduit pas simplement les paroles d'une époque — il reproduit sa façon de penser, ses angles morts, sa confiance en des choses que nous considérons depuis longtemps comme des illusions.
Techniquement, l'approche se présente comme suit. On prend l'architecture d'un modèle de langage standard — généralement relativement compacte, car le volume de textes historiques est limité. Le corpus d'entraînement est formé exclusivement de sources datées d'une période spécifique : livres, journaux, lettres, traités scientifiques, documents juridiques. Il est critique d'exclure tout texte écrit après la date limite choisie. En résultat, le modèle absorbe non seulement le vocabulaire et la grammaire de l'époque, mais aussi son cadre épistémologique — c'est-à-dire les limites de ce que les gens de cette époque considéraient comme possible, vrai et permissible.
L'application de tels modèles 'temporels' s'avère être bien plus large qu'on pourrait le supposer. Dans le domaine de l'épistémologie — la science de la connaissance — ils permettent aux chercheurs d'investiguer comment les mécanismes mêmes de la formation des connaissances ont changé. Vous pouvez poser à un modèle de 1650 une question sur la nature des maladies et recevoir une réponse basée sur la théorie humorale — non pas comme une stylisation, mais comme une conviction genuine d'un système pour lequel la théorie des germes n'existe tout simplement pas. Cela fournit aux scientifiques un outil unique pour modéliser les paradigmes historiques de la pensée.
Dans les sciences comportementales, de tels modèles aident à étudier comment le contexte culturel et informatif façonne le comportement et les décisions. Si vous placez un LLM dans le cadre de connaissances d'une époque spécifique, vous pouvez modéliser les réactions aux événements, les décisions économiques, les attitudes sociales — et les comparer avec des données historiques réelles. En essence, c'est une forme de psychologie historique computationnelle qui aurait été impensable il y a seulement quelques années.
Le potentiel pédagogique est aussi impressionnant. Imaginez un dialogue interactif avec un 'érudit' de l'époque des Lumières qui non seulement cite des textes du XVIIIe siècle, mais raisonne de manière cohérente dans le cadre de la vision du monde de cette époque. Un étudiant peut poser des questions, débattre, faire face à une logique qui était irréprochable à son époque, mais qui semble absurde aujourd'hui. C'est un moyen puissant de démontrer que le savoir n'est pas une valeur absolue, mais un processus historiquement conditionné.
Plusieurs initiatives ouvertes travaillent déjà dans cette direction. Les projets discutés par les spécialistes de Beeline Cloud développent à la fois les modèles eux-mêmes et la méthodologie de préparation des corpus historiques. Le défi clé ici est la qualité des données. Les textes numérisés des siècles passés contiennent souvent des erreurs de reconnaissance, et la sélection des sources nécessite une expertise sérieuse des historiens pour s'assurer que le corpus représente adéquatement la pensée de l'époque, et non seulement son élite littéraire.
Et il y a une question fondamentale que cette approche soulève. Si un modèle entraîné sur des textes du passé reproduit les délires et les préjugés de son époque, qu'est-ce que cela dit sur les LLM modernes ? Ils sont tout aussi limités par les frontières de notre époque — nous ne savons tout simplement pas encore laquelle de nos 'vérités évidentes' les générations futures trouveront naïves. Les modèles temporels deviennent un miroir qui nous rappelle : toute intelligence, artificielle ou non, est un produit de son époque. Et la conscience de ce fait peut être plus précieuse que n'importe quel progrès technologique.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.