TAPe يحقق كشف بمستوى RF-DETR و YOLO على COCO بأقل من 100 ألف معامل
وصل كشف TAPe إلى مستوى النماذج القوية على COCO مع البقاء في أقل من 100 ألف معامل. يبلغ المؤلفون عن mAP50 بمستوى RF-DETR-2XL، وتأخير 7-8 ميلي ثانية لكل صورة،…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أثبتت TAPe أن الكشف عن الأشياء على مستوى أفضل النماذج يمكن تحقيقه دون شبكات ضخمة تحتوي على مئات الملايين من المعاملات: على معيار COCO، حققت النظام دقة مماثلة لحلول RF-DETR و YOLO القوية، مع الحفاظ على حجم نموذج أقل من 100 ألف معامل وزمن استدلال حوالي 7–8 ميلي ثانية لكل صورة. النتيجة الرئيسية للتجربة هي أن المؤلفين حققوا كشف TAPe على مستوى أساليب SOTA الحديثة ليس من خلال التوسع البسيط، بل من خلال الفكرة المعمارية نفسها. بالنسبة لرؤية الحاسوب، هذا إشارة مهمة: السباق نحو نماذج أكبر فأكبر ليس ضروريًا دائمًا إذا تمت صياغة المشكلة بحيث تستخرج الشبكة البنية المطلوبة من البيانات بأوزان أقل.
تم استخدام مجموعة البيانات COCO كمرجع — وهي من بين أكثر مجموعات البيانات شيوعًا وتحديًا لتقييم كشف الأشياء، حيث تتم مقارنة الحلول الصناعية والبحثية الجادة عادة. لذلك، يتم إدراك النتيجة على مجموعة البيانات هذه على الفور كمادة جوهرية وليست معملية. وفقًا للمقاييس المعلنة، يحتفظ نموذج TAPe النهائي بـ mAP50 على مستوى RF-DETR-2XL، بينما يبقى أصغر بعدة رتب من حيث الحجم.
بينما تمتلك TAPe أقل من 100 ألف معامل، فإن النماذج الخفيفة الأقرب من فئة YOLO تمتلك تقريبًا رتبة أكثر من المعاملات، والأساليب القوية مثل RF-DETR من فئة DETR بها بالفعل حوالي 127 مليون معامل. الفرق هنا ليس تجميليًا بل نظاميًا. النموذج الأصغر يعني ليس فقط توفيرًا في الذاكرة، بل أيضًا حدًا أقل للنشر على الأجهزة القياسية، وتسليمًا أبسط في السيناريوهات الحافة، وتكاليف أقل للتدريب والإعادة والتصحيح.
يؤكد المؤلفون بشكل منفصل على السرعة: حوالي 7–8 ميلي ثانية لكل صورة، مع تصرف النموذج بسرعة متساوية تقريبًا على وحدات معالجة الرسومات والمعالج المركزي. بالنسبة للسيناريوهات التطبيقية، هذا مهم بشكل خاص لأنه لا يمكن لكل فريق تحمل بنية تحتية مخصصة لوحدة معالجة الرسومات للاستدلال. مسألة البيانات مهمة بنفس الحد.
عادة ما يتم شراء الدقة العالية في الكشف ليس فقط من خلال النموذج، بل من خلال حجم ضخم من الأمثلة المسماة وأنظمة التدريب المعقدة والدورات الطويلة من التجارب. تؤكد TAPe على أن منهجهم يقلل بشكل ملحوظ من المتطلبات المتعلقة بالبيانات والموارد الحسابية ووقت التطوير. إذا تم تكرار هذا بشكل ثابت خارج تجربة واحدة، فإن الفرق الصغيرة لديها فرصة للتنافس في المجالات حيث كان سعر الدخول مرتفعًا جدًا في السابق.
ينطبق هذا على الشركات الناشئة ومجموعات البحث وفرق المنتجات التي تنفذ الرؤية في الكاميرات والروبوتات وأنظمة المستودعات والأجهزة المحمولة. في هذا المنطق، يتم تحديد قيمة النموذج ليس فقط من خلال الدقة المطلقة، بل أيضًا من خلال عدد الأشخاص والبنية التحتية المطلوبة لنقله إلى الإنتاج. في مواجهة السوق حيث يتم قياس النجاح في الغالب حسب حجم نقطة التفتيش وساعات وحدة معالجة الرسومات المستهلكة، تبدو نتيجة كهذه شبه حدسية.
لكن هذا بالضبط ما يجعلها مثيرة للاهتمام. تقترح TAPe بشكل أساسي أطروحة مختلفة: يمكن زيادة الأداء في مهام الكشف ليس فقط من خلال الحجم، بل أيضًا من خلال طريقة أكثر كفاءة لترميز التبعيات البصرية. بالنسبة للصناعة، قد يعني هذا تحويل التركيز من توسيع الموارد إلى تحسين صياغة المشكلة ذاتها.
بالنسبة لمجتمع المصدر المفتوح، فإنه يمثل فرصة للحصول على نماذج يسهل تشغيلها ونشرها وضبطها دون بنية تحتية ثقيلة. إذا تم تأكيد استنتاج المؤلفين في الاختبارات المستقلة اللاحقة، يمكن أن تصبح TAPe حجة مهمة لصالح نماذج الرؤية المدمجة من جيل جديد. نقطة هذا الخبر ليست أن نظامًا آخر تفوق على المنافسين في جدول، بل أن جودة مماثلة تم الحصول عليها بتكلفة أقل بكثير من حيث المعاملات والبيانات والحسابات.
هذه الحالة حيث تصبح مكاسب الكفاءة في حد ذاتها النتيجة التكنولوجية الرئيسية. وهذه الأنواع من القصص غالبًا ما تغير الممارسة بشكل أسرع من المزايا الباهظة والتي تحطم الأرقام القياسية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.