Habr AI a présenté un prototype de système qui vérifie l’authenticité des références dans les travaux scientifiques
Habr AI a publié une analyse d’un projet de fin d’études consacré à la vérification des références scientifiques. Le prototype prend en charge les fichiers…
Traité par IA depuis Habr AI ; édité par Hamidun News
Sur Habr AI, une analyse d'un projet de thèse sur la vérification automatique des sources scientifiques a été publiée. L'auteur construit un système qui ne doit pas seulement trouver la liste des références dans un document, mais aussi vérifier si chaque lien existe réellement et si on peut lui faire confiance.
Pourquoi le problème s'est aggravé
L'idée semble étroite à première vue. Avec la croissance des modèles génératifs, les erreurs dans les bibliographies ne sont plus de simples fautes de frappe : dans les textes scientifiques et pseudo-scientifiques, on trouve de plus en plus des DOI déformés, des auteurs confondus, des URL cassées et des références à des travaux qui n'existent pas. Pour les éditeurs et les relecteurs, cela signifie des heures supplémentaires de vérification manuelle, et pour l'auteur, un coup direct à la crédibilité du texte.
Le problème comporte deux volets. Le premier est le formatage : la même source peut être écrite selon GOST, APA, IEEE ou dans un format mixte où la moitié des champs manquent. Le second est l'authenticité : même une référence parfaitement formatée peut ne mener nulle part. Par conséquent, la tâche se réduit non pas à une correction cosmétique de la bibliographie, mais à une vérification de la fiabilité du texte en tant que tel. Si la source n'est pas confirmée, la qualité du travail, la reproductibilité des résultats et la logique même de la citation scientifique en souffrent.
Comment fonctionne le système
Le prototype actuel accepte PDF et DOCX, extrait le texte, recherche un bloc de bibliographie en utilisant un ensemble d'heuristiques, le divise en enregistrements individuels et analyse les champs : auteurs, titre, année, journal, volume, numéro, pages, DOI et URL. Le système tente ensuite de confirmer l'enregistrement par des sources externes — de Crossref et OpenAlex à Wikidata, ORCID, Google Scholar et une recherche web ordinaire. Le résultat n'est pas une réponse binaire, mais une échelle de confiance.
- accepte un document via une interface web
- met en évidence et structure la liste des références
- vérifie le DOI, l'URL et la correspondance des métadonnées
- attribue un statut de crédibilité à chaque enregistrement
- enregistre un rapport et JSON final pour traitement ultérieur
Le moment clé de l'architecture est une approche hybride. Les règles et heuristiques sont responsables de l'extraction de caractéristiques, de la validation des DOI et de la vérification basique des champs, tandis que la couche ML aide lorsque l'enregistrement est bruyant, partiellement reconnu ou ne correspond pas à un modèle rigide. Cette approche est nécessaire car les règles pures se cassent rapidement sur des documents réels, et un modèle pur devient une boîte noire à laquelle on ne peut pas faire confiance.
Les statuts verified, likely_verified, unverified et unknown permettent au système d'afficher honnêtement le degré de confiance plutôt que de prétendre que tout cas controversé peut être résolu automatiquement.
Pour évaluer la qualité, l'auteur ne regarde pas un seul chiffre général. Les métriques sont divisées par étapes : à quel point les champs sont bien extraits, combien de références peuvent être confirmées, à quel point la classification fonctionne correctement et si la correction automatique cause des dommages. Ce découpage par couches est nécessaire pour comprendre exactement où le pipeline se casse : à l'extraction, à l'appariement, à l'attribution du statut ou à la tentative de corriger un enregistrement.
Où commencent les défaillances
La partie la plus désagréable de la tâche apparaît avant la vérification du lien. Un PDF peut contenir des en-têtes, des sauts de ligne, un arrangement chaotique de blocs de texte ou même être un scan sans couche de texte appropriée. Dans ces cas, le OCR est d'abord nécessaire, et ce n'est qu'ensuite qu'on peut analyser la bibliographie.
Même après cela, restent des articles sans DOI, des URL mortes, des sources en langue russe mal représentées dans les registres internationaux et des enregistrements où le titre ou les auteurs sont tellement déformés que l'appariement direct ne fonctionne pas. Un problème séparé est celui des services externes. Certains ont des limites de débit, d'autres ont des réponses instables, d'autres peuvent se heurter à un CAPTCHA ou à des métadonnées incomplètes. Par conséquent, l'auteur du projet souligne séparément l'importance de l'explicabilité et du mode human-in-the-loop.
Le système ne doit pas seulement rendre un verdict, mais aussi montrer quels champs correspondent, où il y a peu de confirmations et ce qui est mieux de vérifier manuellement.
Si un enregistrement ne peut pas être confirmé de manière fiable, le système ne doit pas prétendre être un oracle tout-puissant.
C'est particulièrement important pour la correction automatique : corriger un enregistrement bibliographique peut facilement générer une nouvelle erreur si l'algorithme est trop confiant.
Les plans les plus proches sont d'améliorer l'extraction des références, d'élargir l'ensemble de données étiqueté et de faire fonctionner le pipeline sur un corpus d'exemples avec des métriques séparées pour l'analyse, l'appariement, la classification et la correction automatique.
Qu'est-ce que cela signifie
La vérification des liens se transforme progressivement d'une tâche éditoriale ennuyeuse en une tâche IA distincte à l'intersection du NLP, de la validation des données et de l'infrastructure académique. À mesure que les modèles apprennent à fabriquer des bibliographies de manière convaincante, la demande de systèmes capables de distinguer une source réelle d'une fiction bien formatée ne fera que croître.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.