MarkTechPost→ المصدر

قدمت Meta نموذج Sapiens2 — نموذج رؤية حاسوبية موحد لتقدير الوضعية والتقسيم و3D

أطلقت Meta برنامج Sapiens2 — عائلة جديدة من نماذج الرؤية عالية الدقة لمهام تتعلق بالإنسان. تغطي بنية واحدة تقدير الوضعية وتقسيم أجزاء الجسم والعادي السطحي…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
قدمت Meta نموذج Sapiens2 — نموذج رؤية حاسوبية موحد لتقدير الوضعية والتقسيم و3D
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت Meta Reality Labs نموذج Sapiens2 — الجيل التالي من نماذج الرؤية الحاسوبية المركزة على الإنسان، والتي تحاول استبدال مجموعة متفرقة من الشبكات المتخصصة بأساس موحد واحد. جمعت الشركة في خط واحد مهام تعيش عادة بشكل منفصل: تقدير وضعية الإنسان، وتقسيم أجزاء الجسم، وإعادة بناء الأعمدة السطحية، و pointmap للهندسة ثلاثية الأبعاد، وتقدير الألبيدو. بالنسبة للسوق، هذه إشارة مهمة: تستمر Meta في الرهان ليس فقط على الذكاء الاصطناعي التوليدي، بل أيضاً على الرؤية الحاسوبية التطبيقية، التي تكون ضرورية لأجهزة الواقع المعزز والصور الرمزية الرقمية والتجربة الافتراضية وتقنية التقاط الحركة وتحليل الفيديو.

الفكرة الأساسية وراء Sapiens2 هي أن معمارية أساسية واحدة يمكن أن تعمل على عدة مستويات من فهم وجود الإنسان في الإطار. لا يتطلب النظام بعد الآن شبكة منفصلة للهيكل العظمي، وأخرى لتحديد الجسم، وثالثة للهندسة السطحية. تؤكد Meta أن عمود فقري واحد بعد الضبط الدقيق يغطي جميع هذه السيناريوهات.

من الناحية العملية، هذا يبسط خط أنابيب الإنتاج: مكونات أقل، وعدم تزامن أقل بين النماذج، وتكاليف صيانة أقل. في نقاط التفتيش المنشورة، يوجد على وجه الخصوص نموذج لتقدير الوضعية من أعلى لأسفل على 308 نقاط رئيسية، تشمل نقاط مفصلة من الوجه والأيدي والقدمين، بالإضافة إلى التقسيم إلى 29 فئة من أجزاء الجسم. التحديث الرئيسي لا يقتصر على مجموعة المهام، بل يتعلق أيضاً بكيفية تدريب النموذج.

تم التدريب المسبق لـ Sapiens2 على مجموعة بيانات منتقاة بعناية من مليار صورة عالية الجودة لأشخاص. في التدريب المسبق، جمعت Meta بين إعادة بناء الصور المقنعة والهدف التبايني ذاتي التقطير، بحيث يحتفظ النموذج في نفس الوقت بالتفاصيل منخفضة المستوى للتنبؤ الكثيف والدلالات عالية المستوى للسيناريوهات الخالية من التسميات والقليلة التسميات. استخدمت المعمارية أيضاً تقنيات من النماذج الحدودية الأكثر حداثة للحفاظ على دورات تدريب أطول دون فقدان الاستقرار.

يتراوح الخط من 0.4 إلى 5 مليارات معامل، ويعمل في دقة أصلية 1K، والأشكال الهرمية تدعم 4K وتستخدم الانتباه النافذة للحصول على سياق مكاني أطول. مقارنة بالجيل الأول من Sapiens، تؤكد Meta على تحسن ملحوظ في جميع المقاييس الرئيسية تقريباً.

في مهمة تقدير الوضعية، تضيف النسخة الجديدة 4 نقاط من mAP، على تقسيم أجزاء الجسم — 24.3 نقطة من mIoU، وفي تقييم الأعمدة السطحية تقلل الخطأ الزاوي بنسبة 45.6%.

المهم بشكل منفصل هو أن Sapiens2 يتجاوز المهام المعتادة للإصدار الأول. الآن يمكن للعائلة بناء خرائط النقاط، أي التنبؤ بإحداثيات ثلاثية الأبعاد في نظام الكاميرا لكل بكسل، والعمل مع الألبيدو — اللون الأساسي للسطح دون تأثر الإضاءة. بالنسبة للصور الرمزية والواقع المعزز والتجربة الافتراضية، هذه التمثيلات مفيدة بشكل خاص: فهي تساعد على إعادة بناء شكل الإنسان بدقة أكبر، ونقل الإضاءة، وبناء مشاهد ثلاثية الأبعاد أكثر واقعية من الصورة العادية.

القيمة العملية للإصدار هي أن Meta لم تقتصر نفسها على منشور بحثي. قامت الشركة بالفعل بنشر عائلة Sapiens2 على Hugging Face والكود على GitHub، مع توفر متغيرات فردية للوضعية والتقسيم والأعمدة و pointmap في المجموعة. هذا يخفض حاجز الدخول للفرق التي تبني منتجات حول الرؤية الحاسوبية للإنسان: من تطبيقات اللياقة البدنية وأنظمة تحليل الفيديو إلى واجهات الواقع المعزز والشخصيات الافتراضية.

وفي الوقت نفسه، من المهم أن نتذكر أن Sapiens2 ليس نموذجاً عاماً لأي رؤية حاسوبية، بل هو مكدس قوي للصور المركزة على الإنسان. أي أن منطقة قوتها الرئيسية هي الإطارات حيث يبقى الإنسان وضعيته وسطحه وملابسه وهندسة جسمه هي الكائن المركزي. ما يعنيه هذا عملياً: تتخذ Meta خطوة أخرى نحو العمود الفقري البصري الموحد لكل ما يتعلق بالإنسان في الإطار.

إذا تم التأكد من النتائج المعلنة في سيناريوهات الإنتاج الحقيقية، ستحصل الشركة على أساس قوي لمنتجاتها الخاصة بالواقع المعزز وتحدد في نفس الوقت معياراً جديداً للبحث المفتوح في الرؤية الحاسوبية المركزة على الإنسان. بالنسبة للسوق، هذا مثال جيد على كيف تبدأ نماذج الأساس في جلب الفوائد ليس فقط في النصوص والتوليد، بل أيضاً في مهام الرؤية الحاسوبية الدقيقة والهندسية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…