Talkie-1930: Les chercheurs ont lancé un modèle 13B sans connaissance d'Internet et de la Seconde Guerre mondiale
Les chercheurs ont lancé Talkie-1930, un modèle 13B open-weight entraîné uniquement sur des textes en anglais jusqu'à fin 1930. Il n'a aucune connaissance…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Talkie-1930 — une expérience rare qui tente de ramener un modèle de langage au contexte intellectuel du début du XXe siècle. Ce modèle ouvert de 13 milliards de paramètres a été entraîné exclusivement sur des textes en anglais publiés avant le 31 décembre 1930, il ne sait donc rien sur internet, les smartphones ou la Deuxième Guerre mondiale en tant que fait accompli. Au lieu d'un énième chatbot omniscient, les chercheurs ont créé un banc d'essai propre pour vérifier comment un modèle raisonne, prédit et généralise lorsque sa vision du monde est rigidement fixée en un seul point historique.
Le projet a été présenté par une équipe dirigée par Nick Levin, David Duvenaud et Alec Radford. La version de base talkie-1930-13b-base a été entraînée sur 260 milliards de tokens provenant de livres, journaux, magazines, articles scientifiques, brevets et documents juridiques. Une version conversationnelle distincte talkie-1930-13b-it est également disponible, affinée pour le dialogue.
Les deux versions sont publiées avec poids ouverts sous la licence Apache 2.0. Les auteurs ont également collecté un « jumeau contemporain » avec la même architecture et le même budget de calcul, mais entraîné sur le corpus FineWeb, permettant de comparer non pas des modèles abstraits d'époques différentes, mais des systèmes presque identiques sur différents types de données.
La valeur principale de Talkie-1930 ne réside pas dans le style rétro, mais dans la pureté de la recherche. Les LLMs modernes souffrent presque inévitablement de contamination — lorsque les tâches de test, les fragments de benchmarks ou les données étroitement apparentées se sont déjà infiltrés dans l'entraînement. Un modèle vintage a par définition moins de ce problème : si un benchmark décrit des événements ou des technologies après 1930, Talkie ne pouvait pas les avoir vus à l'avance.
Cela rend commode de tester jusqu'où un modèle peut réellement généraliser au-delà de son corpus. Les auteurs ont par exemple testé s'il pouvait écrire du code Python à partir de quelques exemples en contexte, bien que Python et les ordinateurs numériques soient absents de ses données d'entraînement. Les résultats jusqu'à présent sont faibles, mais le simple fait de réponses occasionnellement correctes montre que le modèle peut emprunter la structure de la solution plutôt que de simplement copier des modèles appris.
L'équipe utilise également Talkie-1930 comme outil pour les évaluations temporelles et historiques. Dans une expérience, le modèle a mesuré le « caractère surprenant » de brèves descriptions d'événements réels des archives du New York Times : après le point de coupure de 1930, les histoires deviennent notablement moins prévisibles pour lui, notamment les événements des années 1950 et 1960. Cela offre un moyen élégant d'étudier comment les modèles « voient » l'avenir depuis le passé et comment leur capacité de prévision change sur de longues distances temporelles.
Une autre question intrigante est ce qui détermine exactement la personnalité d'un modèle. Presque tous les LLMs modernes proviennent d'une manière ou d'une autre de données web ; Talkie rompt cet héritage et permet de séparer les propriétés intrinsèques au modèle de langage des particularités d'internet comme environnement d'entraînement.
D'un point de vue technique, le projet s'est avéré bien plus complexe qu'un simple filtrage par date. Le risque le plus dangereux est les fuites temporelles : des documents mal datés, des introductions éditoriales contemporaines dans des vieux livres ou des notes de bas de page tardives peuvent subrepticement introduire des connaissances du futur dans le corpus. Les auteurs ont construit un classificateur d'anachronismes au niveau du document, mais reconnaissent qu'il n'est pas parfait : les premières versions du modèle connaissaient la présidence de Franklin Roosevelt et les réformes du New Deal, et le checkpoint 13B conserve des connaissances dispersées sur la Deuxième Guerre mondiale, les Nations unies et la reconstruction de l'Allemagne d'après-guerre.
Tout aussi problématique est la qualité de la reconnaissance de texte. Puisque l'infrastructure éditoriale numérique n'existait pas en 1930, tout le corpus a dû être assemblé via OCR. Dans des tests contrôlés, l'OCR standard ne donnait que environ 30 % d'efficacité d'entraînement par rapport à la transcription humaine des mêmes textes ; le nettoyage simple par expressions régulières l'a porté à environ 70 %, mais un grand écart persistait.
Pour éviter que la version conversationnelle n'adopte des habitudes modernes, la formation post-entraînement a également dû être construite de zéro. Au lieu des ensembles de données d'instructions typiques, l'équipe a extrait des paires « instruction-réponse » de références historiques : manuels de savoir-vivre, guides de rédaction de lettres, livres de cuisine, dictionnaires, encyclopédies, recueils de fables et de poésie. Le modèle a ensuite été amélioré via DPO en ligne en utilisant un LLM moderne comme arbitre ; selon l'évaluation interne, le suivi des instructions s'est amélioré de 2,0 à 3,4 sur 5 points.
Les auteurs prévoient d'étendre le corpus à plus de 1 trillion de tokens, de l'élargir au-delà de l'anglais et de publier un modèle vintage équivalent à GPT-3 d'ici l'été 2026.
En fin de compte, Talkie-1930 importe non pas comme un chatbot nostalgique, mais comme un laboratoire pour tester des questions fondamentales sur l'IA : ce que le modèle comprend vraiment, ce qu'il a simplement mémorisé, jusqu'où il peut généraliser sans indices du futur et combien le web a façonné le caractère des LLMs modernes. Si le projet parvient à réduire les fuites et le bruit de l'OCR, les chercheurs disposeront de l'un des outils les plus purs pour étudier les limites de la généralisation dans les modèles de langage.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.