Habr AI→ المصدر

رفعت TAPe دقة التصنيف إلى 77% وقارنت النتائج مع YOLO على مجموعة بيانات COCO صغيرة

في الجزء الثامن من يوميات TAPe، جمع المؤلفون عدة تحسينات أساسية: التقسيم باستخدام رقع متباينة عند حدود الجسم، وتصنيف أكثر دقة، والتخلي عن معدل التعلّم. وعلى…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
رفعت TAPe دقة التصنيف إلى 77% وقارنت النتائج مع YOLO على مجموعة بيانات COCO صغيرة
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تركز الإدخالة الثامنة من يوميات TAPe ليس على وظيفة واحدة، بل على تجميع سير عمل كشف كامل تقريباً: حسّن المؤلفون التجزئة، وحققوا 77% من دقة التصنيف، واختبروا ما يحدث عند مقارنة النهج مع YOLO على مجموعة بيانات COCO صغيرة. الاستنتاج المؤقت لهم متفائل: بدأ النموذج يعمل بالفعل في سيناريوهات يحتاج فيها كاشفو الفئات الكلاسيكيون عادة إلى بيانات أكثر بكثير.

التجزئة حسب الحدود

التحديث الرئيسي في هذه المرحلة هو التجزئة بواسطة الرقع التباينية عند الحد الفعلي للكائن، بدلاً من صندوق الحد الفاصل التقليدي حوله. الفكرة هي تقسيم الصورة إلى أجزاء أكثر طبيعية ثم تجميع الكائن منها، بدلاً من محاولة تخمين الصندوق فوراً من وحدات البكسل الخام. وفقاً للمؤلفين، كان هذا بالضبط ما حسّن بسرعة جودة دمج الرقع وسمح بتشكيل أجزاء أكثر ملاءمة لكل كائن في الصورة.

بالتوازي، جربت الفريق عدة حلول معمارية أخرى: رؤوس إضافية، طرق مختلفة لاختيار أجزاء متشابهة، وتنويعات تجميع أكثر تعقيداً. لكن هذه الأساليب لم تعطِ التأثير المتوقع. السبب، كما يصفه المؤلفون، هو أن مثل هذه الخطط حاولت تكييف بيانات TAPe مع البنية المعمارية المألوفة، بدلاً من استخدامها كما هي.

في الممارسة العملية، نجح المسار الأكثر مباشرة بشكل أفضل: الاعتماد على بنية تمثيلات TAPe نفسها وتحسين الاتصالات بين الرقع.

التصنيف بدون معدل التعلم

تبين أن المشكلة التالية أكثر عملية: كانت بعض الرقع تفشل أحياناً في الوقوع في الجزء الصحيح. إذا كان واحد أو عدة أجزاء من الصورة غير مرتبطة بكائن، يصبح من الصعب تصنيفها بشكل صحيح، لأن النموذج يفتقر الإجابة على السؤال حول ما يمثله هذا الجزء تماماً. لتقريب التدريب من السلوك الفعلي للنموذج، بدأ المؤلفون في محاكاة نمو الجزء خطوة بخطوة من رقعة واحدة أثناء التدريب — أي تكرار نفس المنطق المستخدم في الاستدلال.

ساعد هذا على تحسين البحث عن الاتصالات الصحيحة بين الرقع، لكنه لم يزل جميع القيود. المشكلة المتبقية هي المناطق "غير المتنامية"، عندما يفتقد الجزء السياق ويخطئ في التصنيف بسبب ذلك. في مثل هذه الحالات، تتحقق TAPe الآن بشكل إضافي من المناطق المجاورة وتنعيم السياق.

بشكل منفصل، يصف المؤلفون هدفاً هندسياً مهماً آخر: التخلص المتسق من المعاملات الزائدة التي قد تكسر سلوك النظام. كان أحد هذه المعاملات معدل التعلم، الذي قررا التخلي عنه في هذا الإصدار جنباً إلى جنب مع الانحدار التدريجي.

  • التجزئة تتم الآن بواسطة الرقع التباينية عند حدود الكائن
  • التصنيف نما إلى 77%
  • التخلي عن معدل التعلم أضاف حوالي 3% من الدقة
  • أضعف النقاط حتى الآن مرتبطة بالأجزاء الصغيرة وقلة السياق
  • الهدف التالي للفريق هو الوصول إلى 80% من التصنيف على الأقل

يلاحظ المؤلفون بشكل خاص معيار السوق: تُدرج منشورات DETR دقة التصنيف حول 79%، على الرغم من عدم وضوح ما إذا كانت أخطاء الكشف نفسها مدرجة. بالنسبة إلى TAPe، هذه ليست الخط النهائي بعد، بل الهدف التالي. الاختبارات الكاملة على مجموعة بيانات COCO بأكملها لا تزال في الطريق، لأنها تستغرق وقتاً طويلاً، لكن من الواضح بالفعل أن البنية المعمارية أصبحت أكثر استقراراً وأفضل ارتباطاً بمهام التعلم الذاتي الإشراف.

أول اختبارات مع YOLO

الجزء الأكثر لفتاً للنظر من الإدخالة هو أول معيار مقارنة مباشر مع YOLO. للتجربة، أخذ المؤلفون جزء صغير من COCO يحتوي على 5000 صورة وقسموه وفقاً لمخطط 70/30: 3500 إطار للتدريب و 1500 للاختبار. بالنسبة إلى كاشفات قياسية، كان هذا الحجم غير كافٍ بشكل حرج. تؤكد TAPe أنه على هذه مجموعة البيانات، لا تتقارب YOLO عملياً، ويبقى مستوى الكشف حول 1%.

"YOLO لا تتقارب على الإطلاق لمجموعة البيانات التي نستخدمها للاختبار."

هذا ليس المقارنة النهائية حتى الآن بواسطة mAP50 و mAP50-95 والسرعة وعدد المعاملات — لا يزال المؤلفون يحضرون منشوراً منفصلاً يحتوي على معايير مقارنة كاملة مع YOLO و RF-DETR. لكن حتى هذه النتيجة الأولية مهمة لأنها توضح الأطروحة الرئيسية للمشروع: تحاول TAPe أن تكون ليست مجرد نموذج كشف آخر، بل بنية معمارية يمكنها العمل على عشرات الصور لكل فئة حيث تتطلب الأساليب الأكثر تقليدية مئات الآلاف من الأمثلة وقواعد مسبقة التدريب أثقل بكثير.

ما معنى هذا

إذا أكدت TAPe فعلاً نتائجها على مجموعة كاملة من المقاييس، فستكون هذه حجة قوية لصالح الرؤية بالحاسوب التي تركز على بنية البيانات بدلاً من الحجم وحده. بالنسبة للفرق التي لديها مجموعات بيانات صغيرة، هذا مهم بشكل خاص: يمكن أن ينخفض تكلفة الدخول للكشف عالي الجودة بشكل كبير.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…