Hugging Face Blog→ المصدر

أطلقت IBM Granite 4.0 3B Vision لاستخراج البيانات من المستندات والرسوم البيانية

أطلقت IBM Granite 4.0 3B Vision، وهو نموذج متعدد الوسائط صغير للمستندات المؤسسية. يمكنه استخراج الجداول المعقدة، وفهم الرسوم البيانية، والعثور على أزواج…

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
أطلقت IBM Granite 4.0 3B Vision لاستخراج البيانات من المستندات والرسوم البيانية
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدمت IBM وفريق Granite نموذج Granite 4.0 3B Vision — وهو نموذج متعدد الأنماط مدمج مصمم للعمل مع المستندات الموضوعية. لم يتم بناؤه للمهام البصرية العامة، بل خصيصاً لاستخراج البيانات المنظمة من الجداول والمخططات والنماذج وملفات PDF المعقدة.

ما يمكن للنموذج القيام به

يركز اهتمام IBM الرئيسي على السيناريوهات العملية حيث تفشل النماذج متعددة الأنماط الشائعة غالباً بسبب التخطيطات المعقدة والحاجة إلى ربط النص بدقة بالسياق البصري. يمكن لـ Granite 4.0 3B Vision قراءة الجداول ذات الصفوف والأعمدة متعددة المستويات وتحليل الرسوم البيانية إلى تنسيقات قابلة للقراءة الآلية والعثور على أزواج دلالية رئيسية-قيمية في النماذج والفواتير. في الوقت نفسه، يحتفظ النموذج بوضع وصف الصورة: يمكنك إعطاؤه مستنداً أو صورة وطلب شرح تفصيلي لما تحتويه.

  • استخراج الجداول من صور المستندات، بما في ذلك الهياكل المعقدة
  • تحويل المخططات إلى CSV أو أوصاف نصية أو رموز برمجية
  • البحث عن أزواج دلالية رئيسية-قيمية في النماذج والفواتير والاستبيانات
  • العمل بشكل مستقل أو ضمن خط أنابيب مع Docling

كيفية بناء Granite

تشرح IBM جودة النموذج من خلال ثلاثة حلول تقنية. الأول هو مجموعة بيانات ChartNet لفهم المخططات. يتضمن 1.7 مليون مثال اصطناعي ومصفى عبر 24 نوع مخطط و 6 مكتبات تصور. يحتوي كل عينة على خمس تمثيلات مرتبطة: رمز البناء والصورة وجدول البيانات والوصف النصي ومجموعة من أزواج الأسئلة والأجوبة. يعلم هذا التوسيم النموذج ليس فقط وصف الصورة، بل استرجاع هيكل البيانات ومعنى المخطط.

الحل الثاني هو متغير من بنية DeepStack Injection. تفصل IBM بين أنواع الميزات البصرية: يتم إدخال الميزات الأكثر تجريداً في الطبقات المبكرة للفهم الدلالي، بينما يتم إدخال الميزات عالية التفصيل في الطبقات اللاحقة للحفاظ على الدقة في ربط العناصر بمواقعها. الحل الثالث هو التعبئة المعيارية. يأتي Granite 4.0 3B Vision كمحول LoRA فوق Granite 4.0 Micro، لذا يمكن للنشر نفسه التعامل مع طلبات متعددة الأنماط والمهام النصية العادية دون نموذج منفصل. بالنسبة لأكوام المؤسسات، يعتبر هذا أكثر أهمية من مجرد زيادة عدد المعاملات.

النتائج على المعايير

على المعايير، يعمل النموذج بشكل أقوى من العديد من المنافسين الأكبر. في مجموعة التحقق من ChartNet، حقق أفضل نتيجة على Chart2Summary — 86.4%، واحتل المركز الثاني على Chart2CSV بنسبة 62.1%، متخلفاً فقط عن Qwen3.5-9B، وهو أكثر من ضعف الحجم. في استخراج الجداول، يتصدر Granite في عدة اختبارات: 92.1 على PubTablesV2 المقص، 79.3 على PubTablesV2 بالصفحة الكاملة، 64.0 على OmniDocBench و 88.1 على TableVQA. بالنسبة لمهام KVP على VAREX، أظهر النموذج 85.5% من التطابق التام في وضع zero-shot.

تصف IBM بشكل منفصل وضعي نشر. في المتغير البسيط، يعمل النموذج كأداة استخراج مستقلة للصور الفردية — على سبيل المثال، النماذج والإيصالات أو المخططات. في سيناريو أكبر، يتصل بـ Docling، الذي يتعامل مع OCR وتحليل التخطيط والكشف عن العناصر البصرية وتقسيم الأجزاء. وبسبب ذلك، يحصل Granite على جداول وأشكال مُجهزة بالفعل، ويقلل خط الأنابيب من تكاليف الحوسبة ويزيد الإنتاجية على أرشيفات المستندات الكبيرة.

ماذا يعني هذا

بالنسبة لسوق ذكاء الاصطناع للمؤسسات، هذا يشير إلى أن السباق لا يتعلق فقط بالنماذج الشاملة الكبيرة. تظهر IBM طريقاً مختلفة: نموذج VLM مدمج يحل مهمة تجارية ضيقة لكنها مكلفة — تحويل المستندات والتقارير والنماذج إلى بيانات منظمة. إذا ثبتت الجودة في التطبيقات الفعلية، فستصل هذه النماذج إلى الأنظمة العاملة بشكل أسرع من المنصات متعددة الأنماط الأثقل.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…