وداعًا لـ patches: معمارية TAPe + ML تغيّر قواعد الرؤية الحاسوبية
تنفق الشبكات العصبية الحديثة للرؤية الحاسوبية موارد هائلة على معالجة patches والبكسلات العشوائية. وتطرح معمارية T+ML الجديدة نهجًا مختلفًا جذريًا يستند إلى…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
وداعا للرقع: معمارية T+ML تغير قواعد الرؤية الحاسوبية
تُظهر الشبكات العصبية الحديثة للرؤية الحاسوبية نتائج مذهلة، لكن تطويرها وتدريبها يتطلب موارد حسابية ضخمة. مجموعات بيانات ضخمة وهياكل معقدة وآلاف معالجات الرسوميات وأسابيع أو حتى أشهر من التدريب المستمر—هذا هو ثمن التقدم. وفي الوقت نفسه، يتم إنفاق جزء كبير من هذه الموارد على تدمير البنية الأصلية للبيانات—تقسيم الصور إلى أجزاء عشوائية (رقع)—والمحاولات اللاحقة لاستعادة هذه البنية من "الفوضى" الناتجة. تقترح معمارية T+ML الجديدة نهجاً مختلفاً بشكل جذري، يستند إلى نظرية الإدراك النشط (TAPe)، والتي تعد بجعل عملية تدريب أنظمة الذكاء الاصطناعي أسرع بكثير وأكثر اقتصادية.
السياق: يتضمن النهج القياسي للرؤية الحاسوبية في التعلم العميق معالجة الصور كمجموعات من البكسلات أو رقع صغيرة مختارة بشكل عشوائي. تعمل الشبكات العصبية الملتفة (CNN) والمحولات (Transformers)، رغم نجاحها، وفقاً لهذا المبدأ تماماً. تطبق شبكات CNN التلافيفية بتسلسل مرشحات لاستخراج الميزات من المناطق المحلية، بينما تقسم المحولات الصور إلى رقع وتستخدم آليات الانتباه لإنشاء اتصالات بينها.
تحاول كلا الطريقتين في الأساس "تجميع" فهم الصورة من أجزاء مجزأة. ومع ذلك، تقترح نظرية TAPe تغيير النموذج الأساسي نفسه: بدلاً من العمل مع البيانات "الخام"، يعمل النظام مع "كتل بناء" منظمة ذات اتصالات مقررة مسبقاً. هذا يسمح للنموذج بالتعرف فوراً على هندسة الكائن بدلاً من محاولة إعادة بنائها من فوضى البيانات، وهي أساس نظرية الإدراك النشط.
T+ML هو تنفيذ هذه النظرية، حيث يجمع بينها وبين قوة التعلم الآلي.
الغوص العميق: تختلف معمارية T+ML اختلافاً جوهرياً عن شبكات CNN والمحولات التقليدية. بدلاً من تقسيم الصورة إلى رقع متطابقة غالباً غير مرتبطة، تستخدم T+ML عناصر TAPe، وهي "كتل بناء" على مستوى أعلى وذات أهمية دلالية. تمتلك هذه الكتل بنية داخلية معروفة واتصالات مقررة مسبقاً بينها.
على سبيل المثال، بدلاً من النظر في بكسلات فردية أو مجموعات صغيرة من البكسلات التي تشكل جزءاً من عجلة السيارة، يمكن لـ T+ML أن تعمل مع "كتلة عجلة" اكتملت بالفعل، مع فهم شكلها ووظيفتها وموقعها النموذجي على السيارة. يُستخدم التعلم الآلي (ML) في هذه الحالة لتدريب النموذج على كيفية استخدام هذه الكتل المنظمة بفعالية وكيفية إنشاء تبعيات معقدة بينها لحل مهام محددة. يسمح هذا النهج للنموذج بتكوين فهم شامل للكائن بسرعة أكبر بكثير، متجاوزاً مرحلة "التجميع" من التفاصيل الصغيرة.
التبعيات: تُظهر الاختبارات الأولية والأطر النظرية المتعلقة بمعمارية T+ML مزايا كبيرة. يعني تقليل الحمل الحسابي أن تدريب النماذج يمكن أن يصبح أسرع بكثير ويتطلب معدات أقل تكلفة. هذا يفتح الأبواب لتطبيق أوسع للتقنيات المتقدمة للرؤية الحاسوبية في المجالات التي تكون فيها الموارد محدودة، مثل الأجهزة المحمولة والأنظمة المدمجة أو حتى الإلكترونيات القابلة للارتداء. بالإضافة إلى ذلك، يمكن للاستخدام الأكثر كفاءة للبيانات والقوة الحسابية أن يساهم في إنشاء أنظمة ذكاء اصطناعي أكثر متانة وكفاءة في استهلاك الطاقة، وهي خطوة مهمة نحو الذكاء الاصطناعي "الأخضر". تشير تنوع معمارية T+ML أيضاً إلى أنها قد تكون قابلة للتطبيق على نطاق واسع من مهام الرؤية الحاسوبية، بدءاً من التعرف على الكائنات وتجزئة الصور إلى تحليل تدفقات الفيديو وإعادة البناء ثلاثي الأبعاد.
الخلاصة: تمثل معمارية T+ML، المستندة إلى نظرية الإدراك النشط، اتجاهاً واعداً في تطور الرؤية الحاسوبية. يعد الابتعاد عن معالجة الرقع التعسفية لصالح "كتل البناء" المنظمة بتحويل عملية تدريب الشبكات العصبية، مما يجعلها أسرع وأكثر اقتصادية وأكثر إمكانية الوصول إليها. إذا تم تأكيد هذه النتائج الأولية في أبحاث على نطاق أوسع، فقد نشهد اختراقاً حقيقياً يسمح للذكاء الاصطناعي برؤية العالم بطريقة أكثر معنى وكفاءة من أي وقت مضى.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.