Hugging Face Blog→ المصدر

قدّمت NVIDIA Nemotron OCR v2: نظام OCR متعدد اللغات مُدرَّب على 12.2 مليون وثيقة اصطناعية

كشفت NVIDIA تفاصيل Nemotron OCR v2، وهو نموذج OCR متعدد اللغات دُرِّب أساسًا على 12.2 مليون وثيقة اصطناعية. الرهان هنا ليس على بنية جديدة، بل على البيانات…

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
قدّمت NVIDIA Nemotron OCR v2: نظام OCR متعدد اللغات مُدرَّب على 12.2 مليون وثيقة اصطناعية
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

عرضت نفيديا كيفية بناء نيموترون OCR v2 — نظام OCR متعدد اللغات حيث جاء الاختراق الرئيسي ليس من خلال حيل معمارية ذكية، بل من بيانات اصطناعية على نطاق واسع. جمعت الشركة مجموعة بيانات من 12.26 مليون وثيقة مولدة اصطناعياً وقامت بتدريب نموذج يقرأ لغات متعددة بمحرك واحد وينتج ما يصل إلى 34.7 صفحة في الثانية على معالج A100 واحد.

التركيز على البيانات

كانت النسخة السابقة، نيموترون OCR v1، تعمل بثقة مع اللغة الإنجليزية، لكنها فشلت في اللغات الأخرى. أظهر معيار SynthDoG أن قيم Normalized Edit Distance لليابانية والكورية والروسية والصينية كانت مرتفعة جداً: كانت النتائج أحياناً تشبه بالكاد النص الأصلي. حتى أن الفريق قام بتوسيع مجموعة الأحرف من 855 إلى 14,244 لتغطية الكيريليكية وأنظمة الكتابة CJK، لكن التحسن كان ضئيلاً. كان النموذج يستطيع رسمياً إخراج الأحرف المطلوبة، لكنه نادراً ما رآها أثناء التدريب.

"الاختناق كان في البيانات وليس في البنية المعمارية." كان هذا نقطة

الانعطاف في المشروع. كانت المراجعة اليدوية لملايين الوثائق مع صناديق على مستوى الكلمة والسطر والفقرة ستكون مكلفة جداً، والتنقيب عن ملفات PDF من الويب ينتج طبقة نصية مزعجة والعديد من الأخطاء. لذلك اتخذت نفيديا طريقاً مختلفاً: توليد الوثائق بشكل برمجي ومعرفة الإحداثيات الدقيقة والنسخ الحرفية وترتيب القراءة لكل جزء مقدماً.

كيفية بناء المجموعة اللغوية

للنصوص، استخدمت نفيديا mOSCAR — مجموعة ويب لغوية كبيرة مع 163 مجموعة فرعية لغوية. سمح هذا باستخدام ليس قوائم القواموس أو النص المولد آلياً، بل عبارات أكثر واقعية مع توزيعات طبيعية للكلمات والأحرف. اتخذت الشركة SynthDoG من مشروع Donut كمحرك تصيير وقامت بإعادة عمل جوهرية. الناتج ليس مجرد صور الصفحات، بل تعليق هرمي كامل على مستوى الكلمة والسطر والفقرة، بالإضافة إلى رسم بياني للعلاقات يحدد ترتيب القراءة.

أضاف خط الأنابيب عدة عناصر مهمة لجعل البيانات الاصطناعية أقرب إلى الوثائق الحقيقية:

  • تخطيطات متعددة القوالب: أعمدة وجداول ونص رأسي وفهارس وشرائح وصفحات بأسلوب Word
  • التعليق ليس فقط من خلال الصناديق بل أيضاً من خلال الهرمية والروابط بين الأسطر
  • الانتقال إلى الاعتراف المستند إلى الأسطر لليابانية والكورية والصينية، حيث حدود الكلمات غالباً ما تكون غامضة
  • مجموعة كبيرة من الخطوط المفتوحة — من 165 إلى 1,258 لكل لغة، بما في ذلك عائلات Google Fonts و Noto
  • تعزيزات عدوانية: ظلال وخطوط عريضة وضوضاء وضبابية وتشويهات وتغييرات في السطوع والخلفية

تحتوي مجموعة البيانات الناتجة على 12,258,146 مثالاً عبر ست فئات لغوية: الإنجليزية واليابانية والكورية والروسية والصينية المبسطة والصينية التقليدية. يعمل النموذج متعدد اللغات نفسه كمكدس واحد للإنجليزية والروسية واليابانية والكورية والصينية، دون خطوة منفصلة للكشف عن اللغة. منطق التوسع أيضاً بسيط: إذا كانت لغة جديدة تحتوي على مجموعة نصوص ويب وخطوط مناسبة، يمكن توسيع خط الأنابيب أكثر دون مراجعة يدوية ودون إعادة كتابة البنية المعمارية.

السرعة والمقايضات

تم تدريب نيموترون OCR v2 ليس فقط على البيانات الاصطناعية بل أيضاً على حوالي 680,000 صورة حقيقية. تتكون البنية المعمارية من ثلاثة أجزاء: كاشف نص يعتمد على RegNetX-8GF، ومعترف قائم على Transformer، وموديول علائقي يفهم الأسطر والكتل المرتبطة. الفكرة الأساسية هي أن العمود الفقري الملتف الثقيل يعالج الصفحة مرة واحدة، ثم يتم إعادة استخدام ميزاته من قبل جميع المكونات الأخرى. بهذه الطريقة، لا يهدر النظام حسابات إضافية على كل مرحلة من خط الأنابيب بشكل منفصل.

على معيار اصطناعي، يبدو التحسن قوياً جداً. بالنسبة للروسية، انخفض NED من 0.564 في نيموترون OCR v1 إلى 0.043 في v2؛ لليابانية — من 0.723 إلى 0.046؛ للكورية — من 0.923 إلى 0.047؛ للصينية المبسطة — من 0.784 إلى 0.035. وفقاً لشركة نفيديا، فإن الإصدار الموحد متعدد اللغات على هذه المجموعة تفوق حتى على المتغيرات اللغوية المتخصصة من PaddleOCR. لكن على معيار OmniDocBench الحقيقي، تكون الصورة أكثر تعقيداً: يعرض نيموترون OCR v2 34.7 صفحة في الثانية مقابل 1.2 لـ PaddleOCR v5، وهي ميزة سرعة تزيد عن 28 مرة، لكنه على بعض المجموعات الفرعية يتخلف عن أفضل المتنافسين من حيث الدقة. هنا يختار المنتج بوضوح التوازن لصالح سرعة المعالجة بدلاً من الجودة القصوى بأي ثمن.

ما يعنيه هذا

نيموترون OCR v2 إشارة جيدة لسوق ذكاء الوثائق: البيانات الاصطناعية توفر بالفعل ليس تأثيراً تجريبياً، بل طريقة عملية لإطلاق نماذج OCR متعددة اللغات بسرعة وتوسيعها إلى أنظمة كتابة جديدة. بالنسبة للشركات، يعني هذا مساراً أرخص للاعتراف بالوثائق، خاصة حيث تكون السرعة والعالمية والتحكم في التعليق مهمة، بدلاً من رقم قياسي مطلق على كل معيار.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…