Habr AI apresentou um protótipo de sistema que verifica a autenticidade de referências em trabalhos científicos
No Habr AI, foi publicada uma análise de um projeto de conclusão de curso sobre verificação de referências científicas. O protótipo recebe arquivos PDF e DOCX,
На Habr AI опубликовали разбор дипломного проекта по автоматической проверке научных источников. Автор строит систему, которая должна не просто находить список литературы в документе, а проверять, существует ли каждая ссылка на самом деле и можно ли ей доверять.
Почему проблема выросла Идея кажется узкой только на первый взгляд.
С ростом генеративных моделей ошибки в библиографии перестали быть просто опечатками: в научных и околонаучных текстах все чаще встречаются искаженные DOI, перепутанные авторы, сломанные URL и ссылки на работы, которых вообще нет. Для редакторов и рецензентов это означает дополнительные часы ручной проверки, а для автора — прямой удар по доверию к тексту. Проблема состоит из двух частей.
Первая — оформление: один и тот же источник могут записать по ГОСТ, APA, IEEE или в смешанном формате, где половина полей отсутствует. Вторая — подлинность: даже идеально оформленная ссылка может вести в никуда. Поэтому задача сводится не к косметической правке списка литературы, а к проверке достоверности текста как такового.
Если источник не подтверждается, страдают качество работы, воспроизводимость результата и сама логика научной ссылки.
Как работает система
Текущий прототип принимает PDF и DOCX, извлекает текст, ищет блок библиографии по набору эвристик, разбивает его на отдельные записи и парсит поля: авторов, название, год, журнал, том, номер, страницы, DOI и URL. После этого система пытается подтвердить запись через внешние источники — от Crossref и OpenAlex до Wikidata, ORCID, Google Scholar и обычного веб-поиска. На выходе формируется не бинарный ответ, а шкала уверенности.
принимает документ через веб-интерфейс выделяет и структурирует список литературы проверяет DOI, URL и совпадение метаданных присваивает статус достоверности каждой записи * сохраняет отчет и итоговый JSON для дальнейшей обработки Ключевой момент в архитектуре — гибридный подход. Правила и эвристики отвечают за извлечение признаков, валидацию DOI и базовую проверку полей, а ML-слой помогает там, где запись шумная, частично распознана или не укладывается в жесткий шаблон. Такой подход нужен, потому что чистые правила быстро ломаются на реальных документах, а чистая модель превращается в черный ящик, которому сложно доверять.
Статусы verified, likely_verified, unverified и unknown позволяют системе честно показать степень уверенности, а не делать вид, что любой спорный случай можно решить автоматически. Для оценки качества автор не смотрит на одну общую цифру. Метрики разделены по этапам: насколько хорошо выделяются поля, сколько ссылок удается подтвердить, насколько корректно работает классификация и не вредит ли автокоррекция.
Такой разбор по слоям нужен, чтобы понимать, где именно ломается пайплайн: на извлечении, сопоставлении, присвоении статуса или попытке исправить запись.
Где начинаются сбои Самая неприятная часть задачи проявляется еще до проверки ссылки.
PDF может содержать колонтитулы, разрывы строк, хаотичный порядок текстовых блоков или вообще быть сканом без нормального текстового слоя. В таких случаях сначала нужен OCR, а уже потом разбор библиографии. Даже после этого остаются статьи без DOI, мертвые URL, русскоязычные источники со слабой представленностью в международных реестрах и записи, где название или авторы искажены настолько, что прямое сопоставление не срабатывает. Отдельная проблема — внешние сервисы. У одних есть rate limits, у других нестабильные ответы, у третьих можно упереться в CAPTCHA или неполные метаданные. Поэтому автор проекта отдельно подчеркивает важность объяснимости и режима human-in-the-loop. Система должна не только вынести вердикт, но и показать, какие поля совпали, где мало подтверждений и что лучше проверить вручную.
Если запись нельзя надежно подтвердить, система не должна изображать всемогущего оракула.
Это особенно важно для автокоррекции: исправление библиографической записи легко может породить новую ошибку, если алгоритм слишком уверен в себе. Ближайшие планы — улучшить извлечение ссылок, расширить размеченный датасет и прогнать пайплайн на корпусе примеров с раздельными метриками для парсинга, сопоставления, классификации и автокоррекции.
Что это значит
Проверка ссылок постепенно превращается из скучной редакторской рутины в отдельную AI-задачу на стыке NLP, валидации данных и академической инфраструктуры. По мере того как модели учатся убедительно выдумывать библиографию, спрос на системы, которые умеют отличать реальный источник от аккуратно оформленной фикции, будет только расти.