قدمت Meta نموذج SAM 3.1: تتبع 16 كائن في الفيديو في الوقت الفعلي
أطلقت Meta نموذج SAM 3.1 — وهو تحديث لنموذج تحليل الفيديو. الميزة الرئيسية: تتيح تقنية multiplexing تتبع حتى 16 كائناً في خطوة حسابية واحدة بدلاً من معالجة…
معالج بواسطة الذكاء الاصطناعي من Meta AI Blog؛ بتحرير Hamidun News
قدمت Meta نموذج SAM 3.1 — وهو تحديث لنموذج Segment Anything Model 3 الخاص بها لتحليل الفيديو. يكمن التحسن الرئيسي في البنية المعمارية الجديدة: يتابع النظام الآن حتى 16 كائناً في خطوة حسابية واحدة ويعمل بسرعة أكبر بمرتين، محققاً 32 إطاراً في الثانية على وحدة معالجة الرسومات H100.
كيف يعمل Multiplexing
في السابق، كان النهج بسيطاً لكن غير فعال: كان SAM 3 يعالج كل كائن في الفيديو بشكل منفصل. لتتبع 16 كائناً، كان يتطلب 16 خطوة حسابية منفصلة. كان هذا بطيئاً جداً، يتطلب حجماً ضخماً من ذاكرة GPU ويخلق اختناقات في المعالجة.
حل SAM 3.1 هذه المشكلة من خلال تقنية multiplexing — تعالج خطوة واحدة جميع الكائنات في نفس الوقت. لا ترى النموذج فقط كائناً واحداً، بل تشاهد المشهد بأكمله. يتيح هذا لها استخدام الفهم العام (global reasoning) للتتبع الأكثر دقة، خاصة عندما تتداخل الكائنات أو تتحرك في ظروف معقدة.
النتيجة ملحوظة في الممارسة العملية: على وحدة معالجة الرسومات H100، تحقق النظام 32 إطاراً في الثانية بدلاً من 16 إطاراً في السابق. لكن الأهم من ذلك — هذا يعني أن تحليل الفيديو عالي الأداء يتطلب الآن موارد أقل. يعمل SAM 3.1 على معدات أقل قوة، مما يجعل رؤية الذكاء الاصطناعي في متناول الشركات الناشئة والوكالات والشركات الصغيرة التي لم تتمكن في السابق من تحمل تكاليف مزارع GPU الخاصة بها.
نظام عام لمختلف المهام
SAM 3 ليست أداة متخصصة جداً. بل هي منصة عامة تعمل بنفس الفعالية على الصور الثابتة والفيديو، وتقبل أنواعاً مختلفة جداً من بيانات الإدخال.
يفهم النظام الاستعلامات النصية: بدلاً من طلب "ابحث عن مظلة" (ستجد النموذج أي مظلة)، يمكنك إعطاء مفهوماً بصرياً دقيقاً — "ابحث عن مظلة حمراء مخططة" — و SAM 3 سيجد هذا الكائن بالذات.
بالإضافة إلى النص، تعمل النموذج مع التلميحات البصرية: الأقنعة والصناديق المحيطة والنقاط على الكائن، وكذلك مع عينات الكائنات (exemplar-prompts). حل هذا مشكلة طويلة الأمد مع نماذج الرؤية الحاسوبية السابقة. كانت الأنظمة القديمة تعمل فقط مع مجموعة ثابتة من الفئات: person و car و dog و bicycle. يمكن لـ SAM 3 تحديد وتتبع أي مفهوم بصري تصفه أو تعرضه، دون الحاجة إلى إعادة التدريب على بيانات جديدة.
حيث يُطبق SAM 3.1 بالفعل
تدمج Meta بالفعل SAM 3 في المنتجات التجارية:
- Instagram Edits — مؤثرات بصرية ديناميكية جديدة تعمل فقط مع الكائنات المحددة
- Vibes في Meta AI — توسيع القدرات على إنشاء وتحرير المحتوى بمساعدة الذكاء الاصطناعي
- Facebook Marketplace — تتيح ميزة "عرض في الغرفة" للمشترين أن يتصوروا افتراضياً الأثاث والديكور في غرفهم قبل الشراء
- Segment Anything Playground — منصة مفتوحة للجميع حيث يمكن تحميل الفيديو أو الصور ورؤية التجزئة (segmentation) في الوقت الفعلي
تتطلب Playground فقط متصفحاً — لا يوجد كود، لا إعدادات GPU. هذا يجعل الوصول إلى رؤية الحاسوب المتقدمة في متناول الجميع.
ماذا يعني هذا
ينتقل تحليل الفيديو القائم على الذكاء الاصطناعي من المختبرات المتخصصة والشركات الضخمة إلى التطبيقات الجماعية. SAM 3.1 ليس مجرد تسريع وتخفيض التكاليف، بل إنه نقطة تحول حقيقية. أصبحت رؤية الذكاء الاصطناعي الآن متاحة للمطورين والشركات متوسطة الحجم التي لم تتمكن في السابق من تحمل تكاليف الحفاظ على مجموعات GPU الخاصة بهم أو تعيين متخصصي رؤية الحاسوب.
ترقبوا ظهور تطبيقات جديدة: في الأمان (المراقبة الفيديو الذكية)، في التجارة الإلكترونية (القياس والتصور)، في اللوجستيات والتصنيع (مراقبة الجودة)، في الإعلام (التحرير التلقائي والمؤثرات). سيصبح SAM 3.1 أساساً لموجة من الخدمات الجديدة في الأشهر القادمة.
*تُعتبر Meta منظمة متطرفة وممنوعة في الاتحاد الروسي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.