IEEE Spectrum AI→ original

GPT-4 aide les archivistes à transcrire des documents manuscrits 50 fois plus vite

Une étude d'une université canadienne a montré que GPT-4 transcrit des documents d'archives manuscrits plus vite et à moindre coût que le logiciel spécialisé Tr

GPT-4 aide les archivistes à transcrire des documents manuscrits 50 fois plus vite
Source : IEEE Spectrum AI. Collage: Hamidun News.
◐ Écouter l'article

En 2023, Mark Humphries, historien et coordinateur d'un programme d'application de l'IA générative à Wilfrid Laurier University (Waterloo, Ontario), a fait face à un problème massif. Il avait numérisé 10 millions de pages de dossiers de retraite canadiens de la Première Guerre mondiale, mais sans index et standardisation, ces archives étaient pratiquement inutilisables — trouver un retraité spécifique signifiait feuilleter les fichiers à l'aveugle. Les dossiers ont été tenus par des centaines de scribes, d'officiers et d'administrateurs différents, ce qui excluait une solution standard : entraîner un modèle spécialisé sur une seule écriture.

Humphries a décidé d'essayer GPT-4. Les résultats ont été bruts, mais meilleurs que tout autre outil. Lui et ses collègues ont passé deux ans à des tests systématiques — analysant des lettres, des documents juridiques et des journaux des XVIIIe–XIXe siècles de différents pays.

La recherche publiée en mai 2025 dans la revue Historical Methods a montré quelque chose de remarquable : les LLM ont surpassé Transkribus — un logiciel spécialisé utilisé par 150+ grands archives et universités. Les chiffres sont impressionnants. Sur le même ensemble de documents que les modèles n'avaient jamais vus auparavant, Transkribus a fait une erreur de lecture de 8%.

Le LLM de Humphries s'est arrêté à 2%. Pendant ce temps, la vitesse a augmenté 50 fois, et le coût a chuté 50 fois. L'entreprise derrière Transkribus a déjà annoncé qu'elle intégrerait LLM dans son propre produit.

« C'était notre rêve », a déclaré

Humphries dans une interview.

Les archives d'un livre fermé deviennent un livre ouvert

Les conséquences pratiques sont déjà visibles dans les universités de toute l'Amérique du Nord. Lianne Laddie, historienne des Histoires autochtones et coauteure de l'étude, utilise l'IA pour rechercher des mentions de femmes autochtones d'Amérique du Nord dans de vieux journaux commerciaux, des registres de baptême et de mariage dispersés dans des archives d'un océan à l'autre. Le problème : ces dossiers ont été tenus par des hommes (commerçants, prêtres, fonctionnaires), et les noms des femmes ont souvent été enregistrés uniquement phonétiquement, de différentes façons — les écrivains français, anglais et écossais pouvaient épeler un nom de cinq façons différentes.

Ou une femme a été mentionnée simplement comme « la femme de quelqu'un ». Compiler une histoire complète au rythme ancien aurait pris des décennies de travail. Maintenant, cela prend des mois.

L'Université de Caroline du Nord (Chapel Hill) expérimente la transcription par IA de ses collections spéciales, qui sont activement utilisées par des personnes recherchant des informations sur leurs ancêtres. L'archiviste Jackie Dean a déclaré que les modèles fonctionnent bien avec les lettres et les journaux, mais la percée s'est produite avec les tableaux — ils ont toujours été un problème pour les logiciels spécialisés. La Banque de réserve fédérale de Philadelphie est allée au-delà des universités.

Ils utilisent les LLM pour extraire des données des registres historiques des propriétés et des immatriculations de véhicules, qui étaient auparavant trop chers à traiter à grande échelle. Cela a ouvert de nouvelles possibilités pour la recherche économique historique.

Des chiffres de LeCun aux modèles généraux

L'histoire de ce problème remonte aux tous débuts de l'IA. Dans les années 1980, Yann LeCun (plus tard lauréat du Prix Turing pour ses contributions à l'apprentissage profond) a travaillé sur la reconnaissance des chiffres manuscrits. Il s'intéressait moins à l'écriture elle-même qu'à la vision par ordinateur — mais en raison de la faible puissance de calcul et du manque de données, il s'est concentré sur les chiffres, où le service postal et les recensements fournissaient les informations.

Il s'est avéré que sur le large ensemble de données que les LLM modernes ont vu — Internet, des livres, des numérisations historiques — les modèles ont en quelque sorte absorbé la connexion entre le texte manuscrit et sa transcription. Personne ne leur a enseigné cela explicitement. LeCun, qui pense que le problème est en grande partie résolu et s'est déplacé il y a longtemps vers des questions plus complexes d'intelligence artificielle, est d'accord avec la logique.

Humphries crée maintenant Archive Pearl — un outil à but non lucratif actuellement en version bêta. L'idée est simple : glissez-déposez une centaine de pages, obtenez une transcription propre en minutes au lieu de semaines. L'objectif de Humphries est la démocratisation.

Cela devrait être un outil pour les gens, pas contre eux.

Ce que cela signifie

Les archives manuscrites deviennent accessibles non seulement aux paléographes formés, mais aussi aux étudiants, aux étudiants diplômés, aux amateurs d'histoire et aux personnes à la recherche de leurs racines. Les collections qui ont été préservées mais fonctionnellement cachées derrière le travail de transcription deviennent interrogeables. Les questions qui étaient auparavant trop coûteuses ou trop laborieuses peuvent maintenant être posées. Ce n'est pas seulement une accélération — c'est une transition de l'impossible au routinier.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…