حقق TAPe دقة 74% على COCO وبدأ الابتعاد عن transformers القياسية
سجّل TAPe نتيجة مرحلية جديدة على COCO: دقة تصنيف بلغت 74% عند تدريب embeddings على بيانات اصطناعية بالكامل. وبالتوازي، توصل الفريق إلى استنتاج معماري مهم…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أفادت فريق يحتفظ بمذكرة تجارب TAPe لرؤية الحاسوب عن نتيجة وسيطة جديدة على COCO: حققت التضمينات المدربة على بيانات اصطناعية بالكامل دقة تصنيف بنسبة 74%. وفي الوقت نفسه، توصل المؤلفون إلى استنتاج آخر: محولات المحولات القياسية تساعد في التحقق السريع من الفرضيات، لكنها تصبح اختناقاً في هذه البنية المعمارية.
كيفية تنظيم التجربة
يستند منهج TAPe إلى فكرة العمل ليس مع البكسلات الخام، بل مع العناصر المنظمة للصورة والعلاقات بينها. في الحقبة الجديدة، تناول المؤلفون مهمتين في الوقت ذاته. الأولى—تدريب التضمينات باستخدام مخطط يشبه iBOT، لكن كلياً على بيانات اصطناعية تم إنشاؤها وفقاً لقواعد TAPe. الثانية—التصنيف القياسي، حيث يجب أن يصنف النموذج كل رقعة إلى واحدة من 80 فئة في مجموعة بيانات COCO بناءً على وصفها. يسمح هذا الأنبوب بفصل تعلم التمثيلات عن التحقق التطبيقي على الصور الحقيقية.
- بيانات TAPe اصطناعية بدلاً من الأجيال المستندة إلى البكسلات الواقعية
- مهمتا تدريب: التضمينات والتصنيف
- 3500 صورة للتحقق من COCO للتدريب
- 1500 صورة للتحقق للاختبار
يبدو اختيار جزء التحقق من COCO على وجه التحديد غير عادي، لكن كان هذا هو جوهر التجربة. أخذ المؤلفون مجموعة بيانات صغيرة حيث يتم تمثيل جميع الفئات الـ 80 بالفعل، والصور نفسها تعتبر أكثر تحدياً من الأمثلة من مجموعة التدريب. هذا يسمح بفهم سريع لما إذا كان النهج يتقارب في ظروف صعبة. وفقاً لمنطقهم، إذا بدأ النموذج يعمل بثقة على مثل هذه المجموعة، فإن الحجم الإضافي للبيانات الأكبر يصبح مهمة هندسية وليس مسألة قابلية التعلم الأساسية.
النتائج على COCO
نتيجة للمهمة الأولى، حقق النموذج دقة بنسبة 82% في إعادة البناء الشرطي للرقعة. بالنسبة للمؤلفين، هذا مؤشر على أن التضمينات تحمل بالفعل هيكلاً مفيداً كافياً، على الرغم من وجود مجال للتحسين. في مهمة التصنيف، كانت النتيجة دقة بنسبة 74%.
بالنسبة للإصدار الأول، هذا مستوى ملحوظ، خاصة لأنه لا يتعلق بنموذج تم تدريبه على مجموعة ضخمة من الصور الطبيعية، بل عن نظام حيث يعتمد التدريب المبكر بالكامل على بيانات TAPe الاصطناعية. يؤكد المؤلفون بشكل خاص على سياق هذا الرقم. وفقاً لتقديرهم، تظهر أفضل النماذج لـ COCO حوالي 79% على المقاييس المماثلة، لذلك لا يزال هناك فجوة، لكنها لا تبدو جوهرية بعد الآن.
الأهم من ذلك، وفقاً لهم، يستمر TAPe في التقارب على مجموعة بيانات صغيرة جداً. في الورقة، يتم تناقضها مع عائلة YOLO، التي، كما يؤكدون، حتى 5 آلاف صورة غير كافية للتقارب الطبيعي، والتكوينات القوية عادة ما تتطلب تدريباً مسبقاً على ImageNet.
لماذا تعيق المحولات
حالياً، يتم تنظيم الاتصالات بين الرقع في هذه البنية المعمارية لا تزال من خلال محولات المحولات القياسية. السبب عملي: التجارب أسرع في التشغيل عليها والتحقق من أن النهج الموسع العام يعمل أسرع. بالنسبة لمذكرة البحث، هذا توازن منطقي.
إذا لم يتم تأكيد الفرضية الأساسية، فلا فائدة من بناء بنية متخصصة على الفور. لكن مع تحسن الجودة، بدأت هذه الطبقة المؤقتة تظهر قيودها. الشكوى الرئيسية حول المحولات هنا هي أن آلية الانتباه تحاول إعادة تعلم التبعيات بين الرقع التي تم تحديدها بالفعل بشكل صريح في بيانات TAPe.
يعتقد المؤلفون أن مثل هذه الطبقة ليست زائدة عن الحاجة فحسب، بل يمكن أن تفسد أيضاً التمثيلات المنظمة نفسها. وتضاف إلى ذلك التقارب البطيء على COCO الكامل والاعتماد على النزول الانحداري القياسي. لذلك، الخطوة التالية للمشروع هي الانتقال إلى بنية معمارية أكثر ملائمة لـ TAPe، حيث لا يتم إعادة بناء الاتصالات بين العناصر بواسطة الانتباه من جديد، بل يتم استخدامها كجزء من البنية الأصلية.
ماذا يعني هذا
تبدو التجربة حتى الآن كإشارة مبكرة لكن ذات مغزى بالفعل: يمكن للبيانات المنظمة الاصطناعية أن تنتج تضمينات فعالة وتصنيفاً تنافسياً حتى على شريحة صغيرة وصعبة من COCO. إذا حافظت النسخة التالية من TAPe على هذه النتائج بعد التخلي عن المحولات، فإن هذا سيكون حجة قوية لصالح أكوام CV البديلة التي تعتمد بشكل أقل على مجموعات بيانات البكسلات الضخمة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.