Habr AI→ original

Habr AI apresentou um protótipo de sistema que verifica a autenticidade de referências em trabalhos científicos

No Habr AI, foi publicada uma análise de um projeto de conclusão de curso sobre verificação de referências científicas. O protótipo recebe arquivos PDF e…

Processado por IA de Habr AI; editado por Hamidun News
Habr AI apresentou um protótipo de sistema que verifica a autenticidade de referências em trabalhos científicos
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

No Habr AI foi publicada uma análise do projeto de diploma sobre verificação automática de fontes científicas. O autor constrói um sistema que não apenas encontra a lista de referências em um documento, mas também verifica se cada link realmente existe e se pode ser confiável.

Por que o problema cresceu

A ideia parece restrita à primeira vista. Com o crescimento dos modelos generativos, erros na bibliografia deixaram de ser meros erros de digitação: em textos científicos e pseudocientíficos, cada vez mais se encontram DOIs distorcidos, autores confundidos, URLs quebrados e referências a trabalhos que não existem. Para editores e revisores, isso significa horas adicionais de verificação manual, e para o autor, um golpe direto na credibilidade do texto.

O problema tem duas partes. A primeira é a formatação: a mesma fonte pode ser escrita segundo GOST, APA, IEEE ou em um formato misto, onde metade dos campos está ausente. A segunda é a autenticidade: mesmo uma referência perfeitamente formatada pode levar a lugar nenhum. Portanto, a tarefa não se reduz a uma correção cosmética da lista de referências, mas à verificação da confiabilidade do texto como tal. Se a fonte não for confirmada, sofrem a qualidade do trabalho, a reprodutibilidade dos resultados e a própria lógica da citação científica.

Como o sistema funciona

O protótipo atual recebe PDF e DOCX, extrai o texto, procura um bloco de bibliografia usando um conjunto de heurísticas, divide-o em registros individuais e analisa os campos: autores, título, ano, periódico, volume, número, páginas, DOI e URL. Depois disso, o sistema tenta confirmar o registro através de fontes externas — desde Crossref e OpenAlex até Wikidata, ORCID, Google Scholar e busca regular na web. A saída não é uma resposta binária, mas uma escala de confiança.

  • aceita um documento através de uma interface web
  • destaca e estrutura a lista de referências
  • verifica DOI, URL e correspondência de metadados
  • atribui um status de credibilidade a cada registro
  • salva um relatório e JSON final para processamento posterior

O ponto-chave da arquitetura é uma abordagem híbrida. Regras e heurísticas são responsáveis pela extração de características, validação de DOI e verificação básica de campos, enquanto a camada ML ajuda onde o registro é ruidoso, parcialmente reconhecido ou não se encaixa em um modelo rígido. Essa abordagem é necessária porque regras puras quebram rapidamente em documentos reais, e um modelo puro se torna uma caixa-preta em que é difícil confiar.

Os status verified, likely_verified, unverified e unknown permitem que o sistema mostre honestamente o grau de confiança, em vez de fingir que qualquer caso controverso pode ser resolvido automaticamente.

Para avaliar a qualidade, o autor não olha para um único número geral. As métricas são divididas por estágios: quão bem os campos são extraídos, quantas referências podem ser confirmadas, quão corretamente funciona a classificação e se a autocorreção causa danos. Essa análise por camadas é necessária para entender exatamente onde o pipeline quebra: na extração, correspondência, atribuição de status ou tentativa de corrigir um registro.

Onde as falhas começam

A parte mais desagradável da tarefa aparece antes da própria verificação do link. Um PDF pode conter cabeçalhos, quebras de linha, arranjo caótico de blocos de texto ou até ser uma digitalização sem uma camada de texto apropriada. Nesses casos, o OCR é necessário primeiro, e só depois a análise da bibliografia.

Mesmo depois disso, permancem artigos sem DOI, URLs mortos, fontes em língua russa com fraca representação em registros internacionais e registros onde o título ou autores estão tão distorcidos que a correspondência direta não funciona. Um problema separado é os serviços externos. Alguns têm rate limits, outros têm respostas instáveis, outros podem esbarrar em CAPTCHA ou metadados incompletos. Portanto, o autor do projeto enfatiza separadamente a importância da explicabilidade e do modo human-in-the-loop.

O sistema não deve apenas render um veredicto, mas também mostrar quais campos coincidiram, onde há pouca confirmação e o que é melhor verificar manualmente.

Se um registro não puder ser confirmado de forma confiável, o sistema não deve fingir ser um oráculo onipotente.

Isso é especialmente importante para autocorreção: corrigir um registro bibliográfico pode facilmente produzir um novo erro se o algoritmo estiver muito confiante em si mesmo.

Os planos mais próximos são melhorar a extração de referências, expandir o conjunto de dados rotulado e executar o pipeline em um corpus de exemplos com métricas separadas para análise, correspondência, classificação e autocorreção.

O que isso significa

A verificação de links está gradualmente se transformando de uma rotina editorial entediante em uma tarefa de IA separada na intersecção de NLP, validação de dados e infraestrutura acadêmica. À medida que os modelos aprendem a fabricar bibliografias de forma convincente, a demanda por sistemas que possam distinguir uma fonte real de ficção neatamente formatada só tenderá a crescer.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…