YADRO درّبت جهاز KVADRA_T اللوحي على التعرّف على عدة أجسام في الإطار خلال 20 مللي ثانية
شرحت YADRO كيف درّبت جهاز KVADRA_T اللوحي على التعرّف في الوقت نفسه على شخص ومستند ونص ورموز QR والباركود في إطار واحد. وبدلاً من مخطط multiclass التقليدي،…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
عرضت YADRO كيف عالجت مهمة تبدو، بالنسبة إلى جهاز محمول، أقرب إلى الكشف، لكنها يجب أن تعمل بسرعة أعلى: فقد جرى تعليم جهاز KVADRA_T اللوحي التعرّف في الوقت نفسه على شخص ومستند ونص ورموز QR والباركود ضمن frame واحد. وحقق نموذج multi-label النهائي متوسط F1-score بلغ 94%، كما استوفى متطلبات السرعة للتشغيل مباشرة على الجهاز.
لماذا ليس multiclass
توضح الشركة أن تصنيف multiclass التقليدي لم يكن مناسبًا هنا بسبب طبيعة المهمة نفسها. ففي صورة واحدة قد يظهر في الوقت نفسه شخص وجواز سفر وأسطر من النص ورمز للمسح، بينما يحاول المخطط الكلاسيكي اختيار فئة مهيمنة واحدة فقط.
وبالنسبة إلى معرض ذكي أو سيناريوهات التحقق، فهذا غير كافٍ: فالجهاز يحتاج إلى فهم التكوين الكامل للمشهد، لا إلى تخمين الكائن الرئيسي. كما أن تشغيل نموذج منفصل لكل نوع من الكائنات كان خيارًا سيئًا أيضًا، لأن ذلك يستهلك سريعًا ميزانية الوقت والموارد على الجهاز اللوحي.
لذلك انتقل الفريق إلى نهج multi-label، حيث تُحدَّد كل فئة بشكل مستقل. لكن حتى هنا لم تنجح البنية البسيطة ذات head تصنيف واحدة مشتركة: فالفئات تنتمي إلى مجالات بصرية مختلفة، وبدأت السمات المشتركة تتداخل مع بعضها بعضًا.
في النسخة الأولى، مع MobileNet V3 وhead واحدة، أظهر النموذج F1-score بنحو 82%. وبعد الانتقال إلى بنية multi-head مع heads مستقلة لأنواع الكائنات المختلفة، ارتفع متوسط المؤشر إلى 94%، أي بحوالي 12 نقطة مئوية دفعة واحدة.
كيف جُمعت مجموعة البيانات
اتضح أن أصعب جزء في المشروع لم يكن اختيار backbone، بل البيانات. فلم يكن لدى الفريق dataset عام multi-label جاهز يجمع التركيبة المطلوبة من الفئات، لذلك جرى تجميع العينة شبه من الصفر بالاعتماد على Roboflow وKaggle ومستودعات open source. وبالتوازي مع ذلك، كان لا بد من متابعة التراخيص حتى يمكن استخدام البيانات داخل المنتج.
وفي النهاية، جمعت المطورة ونظفت مجموعة من 193 ألف صورة، وكان من الصعب بشكل خاص الحفاظ على التوازن بين الفئات المرتبطة مثل المستند والنص. ولأغراض الوسم التلقائي، جرى أولًا اختبار كواشف SOTA التقليدية، وبالدرجة الأولى نماذج عائلة YOLO، لكن جودتها لهذه المهمة اتضح أنها غير كافية.
بعد ذلك، انتقل الفريق إلى vision-language models وبنى حولها pipeline لتنظيف البيانات واستكمالها. وبهذا أمكن ليس فقط وسم الصور، بل أيضًا إزالة التكرارات، ثم سد الفجوات بشكل موجّه في إحصاءات التركيبات النادرة من labels.
- قارنوا بين الكواشف الكلاسيكية ونماذج VLM لفئات مختلفة
- اختاروا Qwen2.5-VL-72B-Instruct بوصفه أداة الوسم الرئيسية، لأنه أعطى نحو 98% F1-score عبر الفئات
- أزالوا التكرارات عبر pHash، وراجعوا الحالات الملتبسة عبر SSIM
- استكملوا تركيبات labels الناقصة عبر فلاتر prompt من نوع «يوجد نص، لكن لا يوجد مستند؟»
وظهرت مشكلة منفصلة مع فئة النص. فبحكم طبيعة المهمة، كان النموذج يلتقط بسهولة الأنماط والخطوط التي تشبه الحروف، لذلك كان لا بد من تقييد هذه الفئة وموازنتها بشكل إضافي.
وقد أتاح هذا النهج ليس فقط جمع dataset كبير، بل جعله مناسبًا لنموذج multi-label مخصص للأجهزة المحمولة، حيث يتحول أي خطأ في توزيع الفئات بسرعة إلى false positives على الصور الحقيقية.
ماذا أظهرت الاختبارات
بعد سلسلة من التجارب، استقر الفريق على MobileNetV3 Large. كما كان لا بد من اختيار دقة frame الإدخال بصفتها حلًا وسطًا بين الجودة والسرعة: إذ جعل خيار 1024 عملية inference ثقيلة أكثر من اللازم، لذلك أصبح format 640 هو الخيار النهائي، لأنه حافظ على مؤشرات قريبة مع تسريع ملحوظ للمعالجة.
وجرى ضبط hyperparameters عبر Optuna، بينما أُديرت التجارب نفسها وتشخيصات التدريب داخل ClearML. وقد ساعد ذلك على تتبع توزيعات gradients وإصدارات datasets وجودة كل تشغيل على حدة من دون فوضى يدوية.
وبعد التدريب، جرى تحويل النموذج إلى ONNX، ثم إلى TFLite وRKNN، حتى يعمل على التهيئات المحمولة والمسرّعة عتاديًا. وعلى NPU في جهاز KVADRA_T اللوحي، تستغرق عملية inference عند 640x640 نحو 20 ms، بينما يكتمل المسار الكامل لمعالجة frame خلال نحو 30 ms.
وهذا أفضل من الحد المستهدف البالغ 50 ms الذي حدده الفريق للمشروع. ووفقًا للمطورة، يمكن الآن استخدام هذا الهامش الزمني في النسخة التالية من النموذج. وتخطط YADRO لإضافة وظيفة التصنيف multi-label في الإصدار التالي من kvadraOS.
«أخطط لاستخدام 20 ms الاحتياطية لزيادة تعقيد النموذج.»
ماذا يعني ذلك
أظهرت YADRO أمرًا مهمًا لـ edge-AI: فحتى على جهاز لوحي يمكن الوصول إلى تعرّف شبه realtime على مشهد معقد، إذا جرى تجميع dataset بشكل صحيح، وفصل heads التصنيف، وعدم محاولة حل كل شيء بنموذج عالمي واحد.
وبالنسبة إلى السوق، فهذه إشارة أخرى إلى أن وظائف CV المفيدة ستُنفَّذ محليًا على نحو متزايد، لا في السحابة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.