GPT-4 ayuda a los archiveros a transcribir documentos manuscritos 50 veces más rápido
Un estudio de una universidad canadiense mostró que GPT-4 transcribe documentos de archivo manuscritos más rápido y más barato que el especializado Transkribus.

En 2023, Mark Humphries, historiador y coordinador de un programa de aplicación de IA generativa en Wilfrid Laurier University (Waterloo, Ontario), se enfrentó a un problema masivo. Había digitalizado 10 millones de páginas de registros de pensiones canadienses de la Primera Guerra Mundial, pero sin un índice y estandarización, estos archivos eran prácticamente inutilizables — encontrar un pensionista específico significaba hojear archivos a ciegas. Los registros fueron mantenidos por cientos de escribas, oficiales y administradores diferentes, lo que descartó una solución estándar: entrenar un modelo especializado en una sola caligrafía.
Humphries decidió probar GPT-4. Los resultados fueron crudos, pero mejores que cualquier otra herramienta. Él y sus colegas pasaron dos años en pruebas sistemáticas — analizando cartas, documentos legales y diarios de los siglos XVIII–XIX de diferentes países.
La investigación publicada en mayo de 2025 en la revista Historical Methods mostró algo sorprendente: los LLM superaron a Transkribus — software especializado utilizado por 150+ grandes archivos y universidades. Los números son impresionantes. En el mismo conjunto de documentos que los modelos nunca habían visto antes, Transkribus cometió una tasa de error de lectura del 8%.
El LLM de Humphries se quedó en 2%. Mientras tanto, la velocidad aumentó 50 veces, y el costo se redujo 50 veces. La empresa detrás de Transkribus ya ha anunciado que integrará LLM en su propio producto.
"Este era nuestro sueño", dijo Humphries en una entrevista.
Los archivos de un libro cerrado se convierten en uno abierto
Las consecuencias prácticas ya son visibles en universidades de toda América del Norte. Lianne Laddie, historiadora de Historias Indígenas y coautora del estudio, utiliza IA para buscar menciones de mujeres indígenas de América del Norte en antiguos diarios comerciales, registros bautismales y matrimoniales dispersos por archivos de costa a costa. El problema: estos registros fueron escritos por hombres (comerciantes, sacerdotes, funcionarios), y los nombres de las mujeres se registraban a menudo solo fonéticamente, de diferentes maneras — escritores franceses, ingleses y escoceses podían deletrear un nombre de cinco formas diferentes.
O una mujer era mencionada simplemente como "esposa de alguien". Compilar una historia completa al ritmo antiguo habría requerido décadas de trabajo. Ahora toma meses.
La Universidad de Carolina del Norte (Chapel Hill) está experimentando con la transcripción de IA de sus colecciones especiales, que son utilizadas activamente por personas que buscan información sobre sus antepasados. La archivera Jackie Dean dijo que los modelos funcionan bien con cartas y diarios, pero el avance se produjo con las tablas — siempre han sido un problema para el software especializado. El Banco de la Reserva Federal de Filadelfia fue más allá de las universidades.
Utilizan LLM para extraer datos de registros históricos de propiedad y registros de automóviles, que anteriormente eran demasiado caros para procesar a escala. Esto abrió nuevas posibilidades para la investigación histórica económica.
De los números de LeCun a los modelos generales
La historia de este problema se remonta a los mismos inicios de la IA. En los años 1980, Yann LeCun (más tarde ganador del Premio Turing por sus contribuciones al aprendizaje profundo) trabajó en el reconocimiento de dígitos manuscritos. Le interesaba no tanto la escritura en sí, sino la visión por computadora — pero debido a la débil potencia computacional y la falta de datos, se centró en dígitos, donde el servicio postal y los censos proporcionaban información.
Resultó que en el amplio conjunto de datos que los LLM modernos han visto — internet, libros, digitalizaciones históricas — los modelos de alguna manera absorbieron la conexión entre texto manuscrito y su transcripción. Nadie les enseñó esto explícitamente. LeCun, quien cree que el problema está en gran medida resuelto y hace mucho se trasladó a cuestiones más complejas de inteligencia de máquina, está de acuerdo con la lógica.
Humphries está creando Archive Pearl — una herramienta sin fines de lucro actualmente en versión beta. La idea es simple: arrastra cien páginas, obtén una transcripción limpia en minutos en lugar de semanas. El objetivo de Humphries es la democratización.
Debe ser una herramienta para las personas, no contra ellas.
Lo que esto significa
Los archivos manuscritos se vuelven accesibles no solo para paleógrafos capacitados, sino también para estudiantes, estudiantes de posgrado, entusiastas de la historia y personas que buscan sus raíces. Las colecciones que fueron preservadas pero funcionalmente ocultas detrás del trabajo de transcripción se vuelven buscables. Las preguntas que anteriormente eran demasiado costosas o laboriosas ahora pueden formularse. Esto no es solo una aceleración — es una transición de lo imposible a lo rutinario.