عرض Habr AI نموذجًا أوليًا لنظام يتحقق من أصالة المراجع في الأعمال العلمية
نشر Habr AI عرضًا لمشروع تخرج للتحقق من المراجع العلمية. يستقبل النموذج الأولي ملفات PDF وDOCX، ويستخرج قائمة المراجع، ويطابق DOI وURL والبيانات الوصفية عبر…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
نُشر على منصة Habr AI تحليل مشروع رسالة جامعية حول التحقق التلقائي من المصادر العلمية. يبني المؤلف نظاماً لا يجب أن يقتصر على إيجاد قائمة المراجع في الوثيقة فحسب، بل على التحقق من وجود كل رابط بالفعل وإمكانية الاعتماد عليه.
لماذا تفاقمت المشكلة
تبدو الفكرة ضيقة النطاق للوهلة الأولى. مع نمو النماذج التوليدية، توقفت الأخطاء في المراجع عن كونها مجرد أخطاء إملائية: في النصوص العلمية وشبه العلمية، يصادف المرء بشكل متزايد معرّفات DOI المشوهة وأسماء مؤلفين مختلطة وروابط معطلة وإشارات إلى أعمال غير موجودة. بالنسبة للمحررين والمراجعين، هذا يعني ساعات إضافية من التحقق اليدوي، وبالنسبة للمؤلف، ضربة مباشرة لمصداقية النص.
تتكون المشكلة من جزأين. الأول هو التنسيق: يمكن كتابة المصدر الواحد وفقاً لمعايير GOST أو APA أو IEEE أو بتنسيق مختلط حيث تغيب نصف الحقول. والثاني هو الأصالة: حتى الإشارة المنسقة بشكل مثالي قد لا تؤدي إلى أي مكان. لذلك تنحصر المهمة ليس في تصحيح تجميلي لقائمة المراجع، بل في التحقق من موثوقية النص ككل. إن لم يتم التأكد من المصدر، تعاني جودة العمل وقابلية إعادة إنتاج النتائج والمنطق ذاته للاستشهاد العلمي.
كيفية عمل النظام
يقبل النموذج الحالي ملفات PDF و DOCX، ويستخرج النص، ويبحث عن كتلة المراجع باستخدام مجموعة من الكشف عن الأنماط، ويقسمها إلى سجلات منفردة ويحلل الحقول: المؤلفون والعنوان والسنة والمجلة والمجلد والعدد والصفحات ومعرّف DOI والرابط. بعد ذلك، يحاول النظام تأكيد السجل من خلال مصادر خارجية — من Crossref و OpenAlex إلى Wikidata و ORCID و Google Scholar والبحث على الويب العادي. الناتج ليس إجابة ثنائية، بل درجة ثقة متغيرة.
- يقبل الوثيقة عبر واجهة ويب
- يبرز وينظم قائمة المراجع
- يتحقق من DOI والرابط وتطابق البيانات الوصفية
- يسند حالة مصداقية لكل سجل
- يحفظ التقرير و JSON النهائي للمعالجة اللاحقة
اللحظة الحاسمة في البنية المعمارية هي النهج الهجين. القواعد والكشف عن الأنماط مسؤولة عن استخراج الميزات والتحقق من صحة DOI والتحقق الأساسي من الحقول، بينما طبقة التعلم الآلي تساعد حيث يكون السجل مشوباً بالضوضاء أو معترفاً به جزئياً أو لا يناسب قالباً صارماً. هذا النهج ضروري لأن القواعد النقية تتعطل بسرعة على الوثائق الحقيقية، والنموذج النقي يتحول إلى صندوق أسود يصعب الوثوق به.
الحالات verified و likely_verified و unverified و unknown تسمح للنظام بإظهار درجة الثقة بصراحة بدلاً من التظاهر بأن أي حالة مثيرة للجدل يمكن حلها تلقائياً.
لتقييم الجودة، لا ينظر المؤلف إلى رقم واحد إجمالي. تنقسم المقاييس حسب المراحل: مدى جودة استخراج الحقول، وكم عدد المراجع التي يمكن تأكيدها، وكيفية عمل التصنيف بشكل صحيح، وما إذا كان التصحيح الآلي يسبب ضرراً. هذا التقسيم حسب الطبقات ضروري لفهم المكان الذي يتعطل فيه خط الأنابيب بالضبط: في الاستخراج أو المطابقة أو تسند الحالة أو محاولة تصحيح السجل.
حيث تبدأ الفشل
يظهر أكثر جزء مؤسف من المهمة حتى قبل فحص الرابط ذاته. قد يحتوي ملف PDF على رؤوس وتذييلات وفواصل أسطر وترتيب فوضوي لكتل النصوص أو حتى يكون نسخة ممسوحة ضوئياً بدون طبقة نص صحيحة. في مثل هذه الحالات، يلزم أولاً استخدام OCR ثم تحليل المراجع.
حتى بعد ذلك، تبقى مقالات بدون معرّف DOI وروابط معطلة ومصادر باللغة الروسية ممثلة بضعف في السجلات الدولية وسجلات حيث العنوان أو أسماء المؤلفين مشوهة لدرجة أن المطابقة المباشرة لا تعمل. مشكلة منفصلة هي الخدمات الخارجية. بعضها له حدود معدل، وبعضها له استجابات غير مستقرة، وبعضها قد يصادف اختباراً CAPTCHA أو بيانات وصفية غير كاملة. لذلك يؤكد مؤلف المشروع بشكل منفصل على أهمية القابلية للتفسير وطريقة human-in-the-loop.
لا ينبغي للنظام أن يصدر حكماً فقط، بل أن يظهر أي حقول تطابقت، حيث توجد تأكيدات قليلة وما يجدر التحقق منه يدويّاً.
إذا لم يكن السجل قابلاً للتأكد بشكل موثوق، فلا ينبغي للنظام أن يتظاهر
بأنه نبي كلي القدرة. هذا مهم بشكل خاص للتصحيح الآلي: تصحيح سجل ببليوغرافي يمكن بسهولة أن ينتج عنه خطأ جديد إذا كانت الخوارزمية واثقة جداً من نفسها.
الخطط الأقرب هي تحسين استخراج المراجع وتوسيع مجموعة البيانات المعلمة وتشغيل خط الأنابيب على مجموعة من الأمثلة بمقاييس منفصلة للتحليل والمطابقة والتصنيف والتصحيح الآلي.
ماذا يعني هذا
يتحول التحقق من الروابط تدريجياً من روتين تحريري ممل إلى مهمة ذكاء اصطناعي منفصلة في تقاطع NLP والتحقق من صحة البيانات والبنية التحتية الأكاديمية. مع أن النماذج تتعلم أن تختلق ببليوغرافيات بقناعة، فإن الطلب على الأنظمة التي يمكنها التمييز بين مصدر حقيقي وخيال منسق بدقة لن سوى أن ينمو.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.