IEEE Spectrum AI→ original

GPT-4 ajuda arquivistas a transcrever documentos manuscritos 50 vezes mais rápido

Um estudo de uma universidade canadense mostrou que o GPT-4 transcreve documentos de arquivo manuscritos mais rápido e mais barato do que o Transkribus especial

GPT-4 ajuda arquivistas a transcrever documentos manuscritos 50 vezes mais rápido
Fonte: IEEE Spectrum AI. Colagem: Hamidun News.
◐ Ouvir artigo

Em 2023, Mark Humphries, historiador e coordenador de um programa de aplicação de IA generativa na Wilfrid Laurier University (Waterloo, Ontário), enfrentou um problema massivo. Ele havia digitalizado 10 milhões de páginas de registros de pensão canadenses da Primeira Guerra Mundial, mas sem um índice e padronização, esses arquivos eram praticamente inutilizáveis — encontrar um pensionista específico significava folhear arquivos às cegas. Os registros foram mantidos por centenas de escribas, oficiais e administradores diferentes, o que descartou uma solução padrão: treinar um modelo especializado em uma única caligrafia.

Humphries decidiu tentar GPT-4. Os resultados foram brutos, mas melhores do que qualquer outra ferramenta. Ele e seus colegas passaram dois anos em testes sistemáticos — analisando cartas, documentos legais e diários dos séculos XVIII–XIX de diferentes países.

A pesquisa publicada em maio de 2025 na revista Historical Methods mostrou algo impressionante: LLMs superaram Transkribus — software especializado usado por 150+ grandes arquivos e universidades. Os números são impressionantes. No mesmo conjunto de documentos que os modelos nunca tinham visto antes, Transkribus cometeu uma taxa de erro de leitura de 8%.

O LLM de Humphries parou em 2%. Enquanto isso, a velocidade aumentou 50 vezes, e o custo caiu 50 vezes. A empresa por trás do Transkribus já anunciou que integrará LLM em seu próprio produto.

"Este era nosso sonho", disse Humphries em uma entrevista.

Arquivos de um livro fechado se tornam um aberto

As consequências práticas já são visíveis em universidades em toda a América do Norte. Lianne Laddie, historiadora de Histórias Indígenas e coautora do estudo, usa IA para buscar menções de mulheres indígenas da América do Norte em antigos diários comerciais, registros batismais e casamentos espalhados por arquivos de costa a costa. O problema: esses registros foram escritos por homens (comerciantes, padres, funcionários), e os nomes das mulheres eram frequentemente registrados apenas foneticamente, de diferentes maneiras — escritores franceses, ingleses e escoceses podiam soletrar um nome de cinco maneiras diferentes.

Ou uma mulher era mencionada simplesmente como "esposa de alguém". Para compilar uma história completa no ritmo antigo teria levado décadas de trabalho. Agora leva meses.

A Universidade da Carolina do Norte (Chapel Hill) está experimentando transcrição por IA de suas coleções especiais, que são usadas ativamente por pessoas que buscam informações sobre seus ancestrais. A arquivista Jackie Dean disse que os modelos funcionam bem com cartas e diários, mas o avanço veio com tabelas — sempre foram um problema para software especializado. O Banco do Federal Reserve de Filadélfia foi além das universidades.

Eles usam LLMs para extrair dados de registros históricos de propriedade e registros de carros, que antes eram muito caros para processar em escala. Isso abriu novas possibilidades para pesquisa econômica histórica.

Dos números de LeCun para modelos gerais

A história desse problema remonta ao próprio início da IA. Nos anos 1980, Yann LeCun (mais tarde vencedor do Prêmio Turing por suas contribuições ao aprendizado profundo) trabalhou no reconhecimento de dígitos manuscritos. Ele estava interessado não tanto na caligrafia em si, mas em visão computacional — mas devido ao fraco poder computacional e falta de dados, ele se concentrou em dígitos, onde o correio e censos forneciam informações.

Descobriu-se que em um conjunto de dados amplo que LLMs modernos viram — a internet, livros, digitalizações históricas — os modelos de alguma forma absorveram a conexão entre texto manuscrito e sua transcrição. Ninguém os ensinou isso explicitamente. LeCun, que acredita que o problema está em grande parte resolvido e há muito se mudou para questões mais complexas de inteligência de máquina, concorda com a lógica.

Humphries está agora criando Archive Pearl — uma ferramenta sem fins lucrativos atualmente em versão beta. A ideia é simples: arraste uma centena de páginas, obtenha uma transcrição limpa em minutos em vez de semanas. O objetivo de Humphries é democratização.

Deve ser uma ferramenta para as pessoas, não contra elas.

O que isso significa

Arquivos manuscritos se tornam acessíveis não apenas para paleógrafos treinados, mas também para estudantes, alunos de pós-graduação, entusiastas da história e pessoas que buscam suas raízes. Coleções que foram preservadas mas funcionalmente ocultas atrás do trabalho de transcrição se tornam pesquisáveis. Perguntas que eram anteriormente muito caras ou trabalhosas para fazer agora podem ser feitas. Isso não é apenas uma aceleração — é uma transição do impossível para o rotineiro.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…