رفع TAPe الدقة على 2% من COCO إلى 98% وبدأ الانتقال من المراكز إلى كشف مربعات الإحاطة
يواصل TAPe يوميات تجاربه على COCO ويعرض خطوة جديدة: دقة تبلغ 98% على عينة بنسبة 2%، وإيجابيات كاذبة أقل، وأولى النتائج لمربعات الإحاطة المستطيلة. كما وجد…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
يواصل TAPe سلسلة تجاربه المفتوحة في رؤية الحاسوب على COCO ويُبلّغ عن إنجاز محلي جديد: وصلت الدقة إلى حوالي 98% على مجموعة فرعية بنسبة 2% من مجموعة البيانات. بالتوازي، قلل الفريق من الإيجابيات الكاذبة وبدأ في نقل النموذج من كشف النقطة المركزية إلى كشف صناديق محيطة كاملة.
ما أظهرته الاختبار
لم يتم إجراء الدورة الجديدة من TAPe على مجموعة COCO بأكملها، بل على مجموعتها الفرعية بنسبة 2%—حوالي 2400 صورة تُستخدم للتكرارات السريعة. في هذه الظروف، حقق الفريق حوالي 98% من الدقة وفقاً لمقياسهم الحالي. كان التغيير الرئيسي هو استخدام الأهرامات العكسية أثناء الضبط الدقيق وجمع البيانات: تبقى رقعة TAPe دقيقة في المركز، بينما يزداد الحجم مع الابتعاد. بشكل أساسي، يتعلم النموذج رؤية كائن في نفس الوقت على مستوى محلي وأوسع قليلاً، مما يساعد على فصل الإشارة المفيدة عن ضوضاء الخلفية بشكل أفضل.
بالنسبة للمؤلفين، هذا ليس معياساً نهائياً ولا سبب للادعاء بأن الكشف على COCO مكتمل. بدلاً من ذلك، هو فحص وسيط بأن المخطط المختار يُحقق بالفعل تحسينات على جزء صغير من البيانات ويسمح بتحديد الأخطاء بشكل أسرع. يؤكد المقال ليس فقط على مكاسب الدقة بل أيضاً على تقليل الإيجابيات الكاذبة—بالنسبة للأنظمة التطبيقية، هذا مهم مثل نسبة الاكتشافات الصحيحة.
كيف تم تكوين التدريب
بالتوازي، كان الفريق يضبط معاملات التدريب الأساسية: كم عدد النماذج الأولية التي تحتاجها كل فئة، وكم عدد رقع خلفية TAPe التي يجب عرضها على النموذج، وكيفية موازنة الخلفية مقابل الكائنات نفسها. حالياً، أفضل نتيجة، وفقاً للمؤلفين، تأتي من تكوين بسيط جداً: نموذجان أوليان لكل فئة وتقريباً ضعفا عدد أمثلة الخلفية مقارنة بالكائنات. المنطق كالتالي: الخلفية أقل تعبيراً، لذا يحتاج النظام إلى رؤيتها أكثر لكي يتوقف عن التعامل مع كل شيء كائن. ومع ذلك، الإفراط في الخلفية يكسر الصورة بسرعة: إذا تم الإفراط، يبدأ النموذج في تصنيف كل شيء تقريباً كخلفية.
يصف المقال أيضاً نمط تدريب للتضمينات على مرحلتين: أولاً، يتم دفع التمثيلات بعيداً لتقليل التداخل بين الفئات، ثم يتم سحب الكائنات المتشابهة بالقرب من بعضها من أجل الدقة. يتوقع المؤلفون أنه في المستقبل يمكن استبدال بعض هذه المراحل بالتدريب على كائنات TAPe المُحضرة مسبقاً.
- تم استخدام حوالي 2% من COCO للاختبارات السريعة—حوالي 2400 صورة
- أفضل عدد من النماذج الأولية لكل فئة الآن هو 2
- التوازن العملي هو تقريباً ضعفا رقع الخلفية مقارنة بالكائنات
- تم تقليل الإيجابيات الكاذبة إلى 30 على مجموعة من حوالي 1500 صورة
- يتم اختبار بشكل منفصل كم عدد «الرؤى» التي يحتاجها النموذج للكشف بدون تصنيف كامل
الانتقال إلى الصناديق
التحول الأكثر وضوحاً في السجل هو الانتقال من البحث عن نقاط مركزية للكائنات إلى بناء مستطيلات حولها. في السابق، كان TAPe في هذه السلسلة من التجارب يبحث بشكل أساسي عن مركز الأهداف؛ الآن يبدأ الفريق في تنسيق النتائج بصيغة كشف كائنات أكثر تقليدية. في هذه المرحلة المبكرة، يكون المؤلفون حذرين في تقييماتهم ولا يقدمون نسب جودة نهائية للصناديق، لكنهم يُبلّغون بأن النتائج الأولى تبدو جيدة بصرياً.
جانب آخر مثير للاهتمام هو التجارب على عدد «الرؤى» التي يحتاجها النموذج. بالنسبة للكشف بدون تصنيف، وفقاً للفريق، أثبتت مراقبة زوايا الصورة والمركز أنها كافية. هذه إشارة مهمة للبنية نفسها: إذا كان يمكن تحديد موقع كائن برقم صغير من الملاحظات، فهذا يعني أن النظام قد يكون بسيطاً وأرخص من خطوط الأنابيب الثقيلة التقليدية. ومع ذلك، ينطبق هذا حالياً على الكشف بدون الالتزام بالتصنيف الدقيق.
حقل النتائج يبقى غير متساوٍ. دقة كشف النقطة المركزية في المتوسط تبلغ حوالي 72% الآن، لكن بالنسبة للفئات الأكثر نسجاً، يرتفع المقياس فوق 90% ويصل إلى 93–94% للكائنات مثل مفاتيح البيانو أو الحمار الوحشي أو القوارب. يكافح النظام الأكثر مع الشوك لصغر حجمها ومع البشر لسبب التباين العالي: في مجموعة البيانات، قد تكون الشخص وجهاً في لقطة قريبة أو شكل الظهر أو وضعية جالسة، وهذه العلامات تعقد المهمة بشكل كبير.
ما يعنيه هذا
تبدو قصة TAPe حتى الآن ليست كمنافس جاهز لـ YOLO على معيار عام، بل كتراكم حذر لبديل وظيفي: دقة أكثر على شريحة صغيرة من COCO، وضوضاء أقل والخطوة الأولى نحو صناديق كاملة. إذا احتفظ الفريق بالتقدم في الانتقال من النقاط المركزية إلى الكشف على مقاييس أكثر صرامة، فسيكتسب النهج ليس فقط قيمة بحثية بل أيضاً وزناً عملياً.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.