AWS Machine Learning Blog→ المصدر

حكّام متعددون الوسائط: كيف تقيّم AWS جودة أوصاف الصور

أضافت AWS مقيمين متعددي الوسائط إلى Strands Evals، وهي أداة لتقييم نماذج AI. وهم يتحققون مما إذا كانت أوصاف الصور والفواتير ولقطات الشاشة تطابق الواقع. سابقاً،

حكّام متعددون الوسائط: كيف تقيّم AWS جودة أوصاف الصور
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

إذا كنت تطور نظام بحث عن المنتجات من خلال الصور، أو تطبيق لتمييز المستندات، أو نظام تحليل الرسوم البيانية، فأنت بحاجة إلى التحقق الموثوق من جودة النموذج. قدمت AWS حلاً في Strands Evals — وهي أدوات تقييم متعددة الوسائط تتحقق من مطابقة الإجابة للصورة الأصلية.

لماذا لا تعمل أدوات التقييم النصية لمهام Image-to-Text

تعمل أدوات التقييم التقليدية فقط مع النصوص. تقارن إجابة النموذج بإجابة مرجعية، لكنها لا ترى الصورة بحد ذاتها. وهذا يخلق ثغرة عمياء: أداة التقييم لا يمكنها التحقق من ما إذا كان وصف المنتج يحتوي على تفاصيل دقيقة من الصورة، أو ما إذا تم استخراج المبلغ بشكل صحيح من الفاتورة، أو ما إذا تم تلخيص لقطة الشاشة بشكل صحيح. يمكن للنموذج أن يقدم إجابة تبدو مثالية على الورق، لكنها تتناقض مع ما هو مرئي في الصورة. على سبيل المثال، قد يكون نظام التعرف على الفواتير قادراً على تحديد صيغة الرقم بشكل صحيح، لكنه يخطئ في القيمة الفعلية إذا كان الرقم في المستند غير واضح. أداة التقييم النصية لن تكتشف هذا الخطأ.

كيف يرى القضاة متعددو الوسائط السياق الكامل

تستخدم أدوات التقييم الجديدة من AWS نماذج لغة كبيرة متعددة الوسائط (MLLM) ترى الصورة الأصلية والإجابة النصية للنموذج في نفس الوقت. هذا يسمح للقاضي بالتحقق ليس فقط من القواعد النحوية أو الأسلوب، بل من المطابقة الفعلية بين الصورة والإجابة. يمكن لمثل هذا القاضي أن:

  • يتحقق من أن وصف المنتج يتطابق مع مظهره ولونه
  • يضمن أن الأرقام والنصوص المستخرجة من المستند دقيقة
  • يقيّم ما إذا تم نقل المعلومات من لقطة الشاشة أو الرسم البياني أو الرسم بشكل صحيح
  • يكتشف الهلوسات — الحالات التي يُنتج فيها النموذج معلومات غير موجودة في الصورة على الإطلاق
  • يتحقق من جودة ترجمة النص المرئي في الصورة

التطبيق العملي في مختلف الصناعات

تكون أدوات التقييم متعددة الوسائط مفيدة بشكل خاص حيث يمكن لأخطاء التمييز أن تؤدي إلى خسائر. في التجارة الإلكترونية، تدرب الشركات النماذج على وصف المنتجات من الصور، والأوصاف غير الصحيحة تقلل من التحويل وتزيد من الإرجاعات. في التحليل المالي، قد يؤدي الخطأ في استخراج مبلغ من الفاتورة إلى أخطاء في التدقيق. وفي أنظمة المعلومات، قد يؤدي المعالجة غير الصحيحة للمستند إلى حجب عملية تجارية كاملة. دمجت AWS أدوات تقييم متعددة الوسائط في Strands Evals بحيث يمكن للمطورين التحقق تلقائياً أثناء تطوير أو اختبار النماذج من أن نظامهم يرى البيانات بنفس الطريقة التي يراها الإنسان.

ما يعنيه هذا بالنسبة للمطورين

بالنسبة لمهندسي ML، هذا يعني عدم الحاجة إلى التحقق اليدوي من عينات النتائج. يمكن أتمتة عملية تقييم الجودة وجعلها أكثر موضوعية. تصبح القضاة متعددو الوسائط أداة قياسية للتحقق من صحة نماذج رؤية الحاسوب، تماماً كما تُستخدم مقاييس النصوص منذ فترة طويلة في معالجة اللغات الطبيعية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…