Netflix تطلق Void — نموذج لإزالة الأجسام من مقاطع الفيديو مع الأخذ في الاعتبار فيزياء المشهد
أطلقت Netflix نموذج Void مفتوح المصدر لتحرير مقاطع الفيديو بدون مصنوعات 'تطفو في الهواء'. يزيل النظام ليس فقط الجسم نفسه، بل تأثيره على المشهد: على سبيل…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
فتحت نتفليكس كود Void — نموذج لتحرير الفيديو يزيل ليس فقط جسمًا من الإطار، بل أيضًا عواقب وجوده. إذا أزلت شخصًا يمسك بجيتار، فإن المحرر القياسي غالبًا ما يترك الأداة "طائفة." يحاول Void إعادة بناء المشهد كما لو أن الجسم لم يكن موجودًا من البداية: تسقط الجيتار، تتسطح الوسادة، لا يحدث التصادم بعد الآن. بالنسبة للمرحلة اللاحقة للإنتاج، هذه خطوة مهمة من الحشو البسيط للبكسل إلى التحرير الواعي للسببية. تم تقديم التطوير من قبل باحثي نتفليكس و INSAIT بجامعة صوفيا، وظهرت نسخة تمهيدية من العمل على arXiv في 2 أبريل 2026.
هذا بالضبط التحدي الرئيسي في video inpainting. تستطيع معظم الأنظمة الحالية ملء فجوة في إطار وإصلاح العيوب السطحية مثل الظلال أو الانعكاسات، لكنها تفشل حيث يتفاعل الجسم الذي يتم إزالته فعليًا مع المشهد. في مقالة ونسخة العرض التوضيحي لـ Void، يعرضون حالات نموذجية: شخص يمسك بجسم، وزن يضغط على وسادة، جسم يصطدم بآخر. بعد الإزالة القياسية، تبقى آثار سخيفة من المنطق الأصلي للمشهد. يستهدف Void بالضبط هذه السيناريوهات ويحافظ، وفقًا للمؤلفين، بشكل أفضل على ديناميات المشهد المتسقة من ProPainter و DiffuEraser و Runway و MiniMax-Remover و ROSE و Gen-Omnimatte. بعبارة أخرى، لا يقوم النموذج بمجرد إعادة لمس الخلفية، بل يحاول الإجابة على سؤال أكثر تعقيدًا: ما الذي يجب أن يحدث في الإطار التالي إذا اختفى الجسم الرئيسي فجأة؟
من الناحية التقنية، يتم بناء Void فوق CogVideoX-Fun-V1.5-5b-InP من Alibaba PAI وتم ضبطه لمهمة video inpainting. النموذج الأساسي هو محول ثلاثي الأبعاد بـ 5 مليارات معامل. الفكرة الرئيسية ليست قناعًا ثنائيًا "حذف / احتفظ"، بل quadmask بأربع قيم: الجسم نفسه، منطقة التقاطع، منطقة التفاعلات المتأثرة، والخلفية دون تغيير. لهذا السبب، يتلقى النموذج ليس مجرد منطقة مقطوعة، بل وصفًا أكثر هيكليًا لما يجب أن يتغير في المشهد بعد الإزالة.
تتم أيضًا إدخال أوصاف نصية لحالة الخلفية المرغوبة، وقرار الاستدلال القياسي في المستودع هو 384 في 672 بكسل مع طول مقطع يصل إلى 197 إطارًا. قبل الإنشاء، يجب أن يفهم النظام ليس فقط حدود الجسم الذي يتم إزالته، بل أيضًا أي أجزاء من المشهد تعتمد عليه. في المستودع، يتم توفير خط أنابيب منفصل لهذا: يقسم SAM2 الجسم، ويساعد Gemini على التفكير في مناطق التفاعل، وبعد ذلك يمكن تصحيح القناع يدويًا إذا لزم الأمر من خلال المحرر المدمج.
أضاف المؤلفون أيضًا استدلالًا بخطوتين. تقوم الخطوة الأولى بالإزالة الرئيسية وإعادة بناء المشهد. الخطوة الثانية ضرورية ليس للحسن، بل لإصلاح مشكلة محددة في انتشار الفيديو — التشوه التدريجي للأجسام بين الإطارات. لهذا، يتم استخدام optical flow والضوضاء المشوهة من نتائج الخطوة الأولى لتثبيت الشكل والمسارات على أجزاء طويلة.
مجموعة البيانات أيضًا مثيرة للاهتمام بشكل خاص: لا توجد عمليًا مقاطع فيديو مقترنة حقيقية بصيغة "مع جسم / بدون جسم لكن مع فيزياء صحيحة"، لذلك قامت الفريق بتجميع هذه البيانات بشكل اصطناعي من HUMOTO و Kubric، حيث بعد إزالة شخص أو جسم، يتم إعادة حساب فيزياء المشهد من الصفر. في HUMOTO، استخدموا مشاهد التقاط الحركة والمحاكاة المكررة في Blender، وغطى Kubric سيناريوهات التصادم والتفاعل بين الأجسام.
الكود والأوزان مفتوحة، يتم توزيع المستودع تحت Apache 2.0، وهناك عرض توضيحي على Hugging Face. لكن للنشر السريع في Colab، يحذر المطورون على الفور من الحاجة إلى وحدة معالجة رسومات بـ 40 غيغابايت من VRAM أو أعلى، وجرى التدريب على ثماني A100 بـ 80 غيغابايت لكل منها.
الأهمية العملية لـ Void تتجاوز العروض التوضيحية الرائعة. بالنسبة للاستوديوهات والمبدعين، فهو تقليل محتمل لأسابيع من العمل اليدوي على اللقطات المعقدة حيث تحتاج ليس فقط إلى إزالة جسم، بل إعادة كتابة سلوك المشهد بعد اختفاؤه. بالنسبة للباحثين، إنها إشارة أخرى بأن نماذج الفيديو بدأت تنتقل من توليد إطارات معقولة إلى محاكاة السببية.
لكن هناك جانب سلبي: كلما كانت هذه الأدوات تحرر الفيديو الحقيقي بشكل أكثر سلاسة، زادت متطلبات التحقق من صحة المواد. لذا فإن Void هو في نفس الوقت أداة VFX قوية وتذكير بأن الخط بين التحرير وإعادة كتابة الأحداث يصبح أرق.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.