Baidu تطلق Qianfan-OCR — نموذج 4B للتعرّف على المستندات وفهمها
كشفت Baidu عن Qianfan-OCR، وهو نموذج 4B يجمع بين OCR وتحليل التخطيط وفهم المستندات ضمن بنية واحدة. وبدلاً من خط أنابيب متعدد المراحل، يحوّل النظام الصورة…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت بايدو نموذج Qianfan-OCR — نموذج موحد بـ 4 مليارات معامل لمعالجة المستندات يجمع بين التعرف على النصوص وتحليل البنية وفهم المحتوى. بدلاً من خط أنابيب OCR الكلاسيكي متعدد المراحل، يحول النظام صور المستندات مباشرة إلى Markdown منظم ويمكنه تنفيذ المهام المطلوبة من المستخدم.
لماذا يبتعد السوق عن خطوط أنابيب OCR
عادة ما يتم تجميع أنظمة OCR الكلاسيكية من عدة وحدات مستقلة: تجد واحدة المناطق على الصفحة، وتتعرف أخرى على النص، وتحاول الثالثة فهم الجداول والعناوين وترتيب القراءة. يعمل هذا النهج على المستندات البسيطة، لكنه ينهار على التخطيطات المعقدة والمسحات الضوئية والنماذج والمحتوى المختلط والتنسيقات غير القياسية والملفات متعددة الصفحات. كلما زاد عدد الخطوات في السلسلة، زادت مخاطر أن يفسد الخطأ في مرحلة مبكرة النتيجة بأكملها.
في مواجهة ذلك، تراهن Qianfan من بايدو على نهج موحد للرؤية واللغة. لا يجب على Qianfan-OCR أن تقرأ الأحرف ببساطة بل أن تدرك المستند كموضوع كامل: مع الكتل والبنية والمنطق والمعنى. بالنسبة للشركات، هذا تحول مهم لأن الشركات عادة لا تحتاج إلى نص خام بل إلى بيانات جاهزة للاستخدام يمكنها العمل معها في البحث والتحليل والأتمتة والسيناريوهات الداخلية للذكاء الاصطناعي، بما في ذلك عمليات الإنتاج.
ما يمكن لـ Qianfan-OCR القيام به
وفقاً لوصف الفريق، هذا نموذج شامل بـ 4 مليارات معامل يجمع بين تحليل المستندات وتحليل التخطيط وفهم المستندات في بنية معمارية واحدة. الفرق الرئيسي عن OCR التقليدي هو أن النموذج لا يعتمد على سلسلة طويلة من الوحدات المتصلة بشكل متسلسل. بدلاً من ذلك، يأخذ صورة كمدخل وينتج على الفور مخرجاً منظماً، بما في ذلك تحويل الصورة إلى Markdown.
هذا يقلل بشكل كبير من عدد التحويلات الوسيطة. المنطق الموجه بالتعليمات جدير بالملاحظة بشكل خاص. يمكن استخدام النموذج ليس فقط للتعرف الأساسي بل أيضاً للمهام التطبيقية، حيث يحدد المستخدم بالضبط ما يجب استخراجه من المستند.
تذكر الورقة بشكل مباشر سيناريوهات لاستخراج الجداول والإجابة على أسئلة حول محتوى المستند. هذا يحول OCR من أداة أرشفة للمسحات الضوئية إلى واجهة للعمل مع الملفات الخاصة بالشركة في سير عمل الشركات. تنسيق Markdown مهم أيضاً هنا.
بالنسبة للفرق التي تبني قواعد معرفية أو بحثاً عن الذكاء الاصطناعي أو خطوط أنابيب LLM، فإن الحصول على نص بدون هيكل غير كافٍ. تحتاج إلى عناوين وقوائم وجداول وترتيب منطقي للكتل. إذا أعاد النموذج على الفور مستنداً بتنسيق مريح لمعالجة الآلة، فهذا يقلل من حجم المعالجة اللاحقة ويجعل النتيجة أكثر ملاءمة للفهرسة التلقائية والتلخيص والطبقات اللاحقة للأسئلة والإجابات.
بالنسبة للتكامل، هذه ميزة ملحوظة.
- تحويل مباشر لصور المستندات إلى Markdown
- تحليل بنية الصفحة بدون خطوط أنابيب منفصلة من وحدات متعددة
- استخراج الجداول بطلب من المستخدم
- الإجابة على أسئلة حول محتوى المستند
- نموذج واحد بدلاً من مجموعة من المكونات المنفصلة
حيث سيكون هذا مفيداً
تكمن القيمة العملية لمثل هذه النماذج في تقليل العمليات الوسيطة بين المستند والإجراء المفيد. إذا كان النظام يفهم حقاً التخطيط والنص والمعنى في ممر واحد، فهذا يبسط معالجة العقود والتعليمات والتقارير والاستبيانات والعروض التقديمية وقواعد المعرفة الداخلية. هذا مهم بشكل خاص للفرق التي تريد تحويل ملفات PDF والمسحات الضوئية تلقائياً إلى تنسيقات مناسبة لـ RAG أو البحث عن المعرفة أو تحليل LLM لاحقاً.
بالنسبة للمطورين وفرق المنتج، هناك نقطة أخرى مهمة: الموحدة تقلل من تعقيد الهندسة. بدلاً من الحفاظ على عدة خدمات OCR ومعالجة لاحقة، يمكنك بناء مكدس أقصر. هذا لا يضمن جودة مثالية على كل نوع مستند، لكن الاتجاه واضح: السوق يتحرك من مجموعة من كاشفات متخصصة نحو نماذج كبيرة تعمل مع المستندات كأجسام متعددة الأنماط وتعدها على الفور للمهام اللاحقة، مع السماح أيضاً بنشر أسرع للسيناريوهات الجديدة.
ما يعنيه هذا
تُظهر Qianfan-OCR أن OCR يتحول بسرعة من تقنية ضيقة للتعرف على الأحرف إلى طبقة من ذكاء المستندات. إذا أكدت مثل هذه النماذج جودتها في سيناريوهات العالم الحقيقي، ستجد الشركات أنه من الأسهل أتمتة معالجة المستندات بدون خطوط أنابيب معقدة متعددة المراحل والتجميع اليدوي للمكونات المنفصلة. سيكون أكبر الرابحين هم الفرق التي تحتاج إلى انتقال سريع من ملفات PDF والمسحات الضوئية إلى بيانات جاهزة للبحث والتحليل ومساعدي الذكاء الاصطناعي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.