IEEE Spectrum AI→ المصدر

GPT-4 يساعد أمناء الأرشيف على تحويل الوثائق المكتوبة بخط اليد إلى نص أسرع بـ50 مرة

أظهرت دراسة من جامعة كندية أن GPT-4 يحوّل وثائق الأرشيف المكتوبة بخط اليد إلى نص أسرع وبكلفة أقل من Transkribus المتخصص. فهو أقل كلفة بـ50 مرة وأسرع بـ50 مرة. و

GPT-4 يساعد أمناء الأرشيف على تحويل الوثائق المكتوبة بخط اليد إلى نص أسرع بـ50 مرة
المصدر: IEEE Spectrum AI. كولاج: Hamidun News.
◐ استمع للمقال

في عام 2023، واجه مارك همفريز، المؤرخ ومنسق برنامج تطبيق الذكاء الاصطناعي التوليدي في جامعة ويلفريد لوريير (ووترلو، أونتاريو)، مشكلة ضخمة. لقد قام برقمنة 10 ملايين صفحة من سجلات المعاشات التقاعدية الكندية من الحرب العالمية الأولى، لكن بدون فهرس وتوحيد قياسي، كانت هذه الأرشيفات عمليًا غير قابلة للاستخدام — إيجاد متقاعد معين يعني قلب الملفات عشوائيًا. تم الاحتفاظ بالسجلات من قبل مئات من الكتبة والضباط والمسؤولين المختلفين، مما استبعد حلاً قياسيًا: تدريب نموذج متخصص على خط يد واحد.

قرر همفريز تجربة GPT-4. كانت النتائج خشنة، لكنها أفضل من أي أداة أخرى. أمضى هو وزملاؤه سنتين على اختبار منهجي — تحليل الرسائل والوثائق القانونية واليوميات من القرنين الثامن عشر والتاسع عشر من دول مختلفة.

أظهرت الأبحاث المنشورة في مايو 2025 في مجلة Historical Methods شيئًا مثيرًا: تفوقت نماذج اللغة الكبيرة على Transkribus — وهو برنامج متخصص يستخدمه أكثر من 150 أرشيفًا وجامعة كبرى. الأرقام مثيرة للإعجاب. على نفس مجموعة الوثائق التي لم ترها النماذج من قبل، كان Transkribus يرتكب خطأ قراءة بنسبة 8%.

توقفت نماذج همفريز عند 2%. وفي الوقت نفسه، زادت السرعة 50 مرة، وانخفضت التكلفة 50 مرة. أعلنت الشركة التي تقف وراء Transkribus بالفعل أنها ستدمج نماذج اللغة الكبيرة في منتجها الخاص.

"كان هذا حلمنا"، قال همفريز في مقابلة.

الأرشيفات من الكتاب المغلق تصبح مفتوحة

النتائج العملية مرئية بالفعل في الجامعات في جميع أنحاء أمريكا الشمالية. تستخدم ليان لادي، مؤرخة التاريخ السكاني الأصلي والمؤلفة المشاركة للدراسة، الذكاء الاصطناعي للبحث عن ذكرات نساء السكان الأصليين في أمريكا الشمالية في السجلات التجارية القديمة وسجلات المعمودية والزواج المتناثرة عبر الأرشيفات من الساحل إلى الساحل. المشكلة: كتب هذه السجلات رجال (التجار والكهنة والمسؤولون)، وكثيراً ما يتم تسجيل أسماء النساء فقط صوتيًا بطرق مختلفة — كان بإمكان الكتاب الفرنسيين والإنجليز والاسكتلنديين تهجي اسم واحد بخمس طرق مختلفة.

أو تم ذكر المرأة ببساطة باسم "زوجة شخص ما". كان سيتطلب تجميع تاريخ كامل بالوتيرة القديمة عقودًا من العمل. الآن يستغرق أشهرًا.

تجري جامعة كارولينا الشمالية (Chapel Hill) تجارب على نسخ الذكاء الاصطناعي لمجموعاتها الخاصة، والتي يستخدمها بنشاط الأشخاص الذين يبحثون عن معلومات عن أسلافهم. قالت أمينة الأرشيف جاكي دين إن النماذج تعمل بشكل جيد مع الرسائل واليوميات، لكن الاختراق حدث مع الجداول — لطالما كانت مشكلة بالنسبة للبرامج المتخصصة. ذهب بنك الاحتياطي الفيدرالي بفيلادلفيا إلى ما هو أبعد من الجامعات.

يستخدمون نماذج اللغة الكبيرة لاستخراج البيانات من السجلات الملكية التاريخية وسجلات السيارات، والتي كانت باهظة الثمن جدًا للمعالجة على نطاق واسع سابقًا. هذا فتح آفاقًا جديدة للبحث الاقتصادي التاريخي.

من أرقام ليكون إلى النماذج العامة

يعود تاريخ هذه المشكلة إلى البدايات الأولى للذكاء الاصطناعي. في الثمانينات، عمل يان ليكون (الذي أصبح لاحقًا حائزًا على جائزة تورينج لإسهاماته في التعلم العميق) على التعرف على الأرقام المكتوبة بخط اليد. كان مهتمًا ليس بالخط نفسه بقدر اهتمامه برؤية الحاسوب — لكن نظرًا لضعف قوة الحوسبة ونقص البيانات، ركز على الأرقام، حيث قدمت الخدمة البريدية والتعدادات البيانات.

اتضح أنه على مجموعة البيانات الواسعة التي رأتها نماذج اللغة الكبيرة الحديثة — الإنترنت والكتب والرقمنة التاريخية — امتصت النماذج بطريقة ما الاتصال بين النص المكتوب بخط اليد ونسخه. لم يعلمهم أحد هذا صراحة. يوافق ليكون، الذي يعتقد أن المشكلة تم حلها إلى حد كبير وانتقل منذ وقت طويل إلى قضايا أكثر تعقيدًا في ذكاء الآلة، على هذا المنطق.

يقوم همفريز الآن بإنشاء Archive Pearl — وهي أداة غير ربحية حاليًا في مرحلة تجريبية. الفكرة بسيطة: اسحب مائة صفحة، احصل على نسخ نظيفة في دقائق بدلاً من أسابيع. الهدف من همفريز هو الديمقراطية.

يجب أن تكون أداة للناس وليس ضدهم.

ماذا يعني هذا

تصبح الأرشيفات المكتوبة بخط اليد في متناول ليس فقط علماء الآثار المدربين، بل أيضًا الطلاب والطلاب الخريجين وعشاق التاريخ والأشخاص الذين يبحثون عن جذورهم. المجموعات التي تم الحفاظ عليها ولكن تم إخفاؤها وظيفيًا خلف عمل النسخ تصبح قابلة للبحث. يمكن الآن طرح الأسئلة التي كانت باهظة الثمن أو شاقة جدًا في السابق. هذا ليس مجرد تسريع — إنه انتقال من المستحيل إلى الروتيني.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…