Netflix تطلق Void — نموذج لإزالة الأجسام من مقاطع الفيديو مع الأخذ في الاعتبار فيزياء المشهد

أطلقت Netflix نموذج Void مفتوح المصدر لتحرير مقاطع الفيديو بدون مصنوعات 'تطفو في الهواء'. يزيل النظام ليس فقط الجسم نفسه، بل تأثيره على المشهد: على سبيل المثال، يجعل جسماً يسقط إذا كان شخص ما يمسكه من قبل. تحت الغطاء — نموذج 5B مبني على CogVideoX، وتقنية quadmask مع مناطق التفاعل، وخط أنابيب ثنائي المسار لتحسين الاستقرار الزمني.

Khamidun Zhemal

رصد الذكاء الاصطناعي · MarkTechPost

28 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News

Netflix تطلق Void — نموذج لإزالة الأجسام من مقاطع الفيديو مع الأخذ في الاعتبار فيزياء المشهد — المصدر: MarkTechPost. كولاج: Hamidun News.

◐ استمع للمقال

فتحت نتفليكس كود Void — نموذج لتحرير الفيديو يزيل ليس فقط جسمًا من الإطار، بل أيضًا عواقب وجوده. إذا أزلت شخصًا يمسك بجيتار، فإن المحرر القياسي غالبًا ما يترك الأداة "طائفة." يحاول Void إعادة بناء المشهد كما لو أن الجسم لم يكن موجودًا من البداية: تسقط الجيتار، تتسطح الوسادة، لا يحدث التصادم بعد الآن. بالنسبة للمرحلة اللاحقة للإنتاج، هذه خطوة مهمة من الحشو البسيط للبكسل إلى التحرير الواعي للسببية. تم تقديم التطوير من قبل باحثي نتفليكس و INSAIT بجامعة صوفيا، وظهرت نسخة تمهيدية من العمل على arXiv في 2 أبريل 2026.

هذا بالضبط التحدي الرئيسي في video inpainting. تستطيع معظم الأنظمة الحالية ملء فجوة في إطار وإصلاح العيوب السطحية مثل الظلال أو الانعكاسات، لكنها تفشل حيث يتفاعل الجسم الذي يتم إزالته فعليًا مع المشهد. في مقالة ونسخة العرض التوضيحي لـ Void، يعرضون حالات نموذجية: شخص يمسك بجسم، وزن يضغط على وسادة، جسم يصطدم بآخر. بعد الإزالة القياسية، تبقى آثار سخيفة من المنطق الأصلي للمشهد. يستهدف Void بالضبط هذه السيناريوهات ويحافظ، وفقًا للمؤلفين، بشكل أفضل على ديناميات المشهد المتسقة من ProPainter و DiffuEraser و Runway و MiniMax-Remover و ROSE و Gen-Omnimatte. بعبارة أخرى، لا يقوم النموذج بمجرد إعادة لمس الخلفية، بل يحاول الإجابة على سؤال أكثر تعقيدًا: ما الذي يجب أن يحدث في الإطار التالي إذا اختفى الجسم الرئيسي فجأة؟

من الناحية التقنية، يتم بناء Void فوق CogVideoX-Fun-V1.5-5b-InP من Alibaba PAI وتم ضبطه لمهمة video inpainting. النموذج الأساسي هو محول ثلاثي الأبعاد بـ 5 مليارات معامل. الفكرة الرئيسية ليست قناعًا ثنائيًا "حذف / احتفظ"، بل quadmask بأربع قيم: الجسم نفسه، منطقة التقاطع، منطقة التفاعلات المتأثرة، والخلفية دون تغيير. لهذا السبب، يتلقى النموذج ليس مجرد منطقة مقطوعة، بل وصفًا أكثر هيكليًا لما يجب أن يتغير في المشهد بعد الإزالة.

تتم أيضًا إدخال أوصاف نصية لحالة الخلفية المرغوبة، وقرار الاستدلال القياسي في المستودع هو 384 في 672 بكسل مع طول مقطع يصل إلى 197 إطارًا. قبل الإنشاء، يجب أن يفهم النظام ليس فقط حدود الجسم الذي يتم إزالته، بل أيضًا أي أجزاء من المشهد تعتمد عليه. في المستودع، يتم توفير خط أنابيب منفصل لهذا: يقسم SAM2 الجسم، ويساعد Gemini على التفكير في مناطق التفاعل، وبعد ذلك يمكن تصحيح القناع يدويًا إذا لزم الأمر من خلال المحرر المدمج.

أضاف المؤلفون أيضًا استدلالًا بخطوتين. تقوم الخطوة الأولى بالإزالة الرئيسية وإعادة بناء المشهد. الخطوة الثانية ضرورية ليس للحسن، بل لإصلاح مشكلة محددة في انتشار الفيديو — التشوه التدريجي للأجسام بين الإطارات. لهذا، يتم استخدام optical flow والضوضاء المشوهة من نتائج الخطوة الأولى لتثبيت الشكل والمسارات على أجزاء طويلة.

مجموعة البيانات أيضًا مثيرة للاهتمام بشكل خاص: لا توجد عمليًا مقاطع فيديو مقترنة حقيقية بصيغة "مع جسم / بدون جسم لكن مع فيزياء صحيحة"، لذلك قامت الفريق بتجميع هذه البيانات بشكل اصطناعي من HUMOTO و Kubric، حيث بعد إزالة شخص أو جسم، يتم إعادة حساب فيزياء المشهد من الصفر. في HUMOTO، استخدموا مشاهد التقاط الحركة والمحاكاة المكررة في Blender، وغطى Kubric سيناريوهات التصادم والتفاعل بين الأجسام.

الكود والأوزان مفتوحة، يتم توزيع المستودع تحت Apache 2.0، وهناك عرض توضيحي على Hugging Face. لكن للنشر السريع في Colab، يحذر المطورون على الفور من الحاجة إلى وحدة معالجة رسومات بـ 40 غيغابايت من VRAM أو أعلى، وجرى التدريب على ثماني A100 بـ 80 غيغابايت لكل منها.

الأهمية العملية لـ Void تتجاوز العروض التوضيحية الرائعة. بالنسبة للاستوديوهات والمبدعين، فهو تقليل محتمل لأسابيع من العمل اليدوي على اللقطات المعقدة حيث تحتاج ليس فقط إلى إزالة جسم، بل إعادة كتابة سلوك المشهد بعد اختفاؤه. بالنسبة للباحثين، إنها إشارة أخرى بأن نماذج الفيديو بدأت تنتقل من توليد إطارات معقولة إلى محاكاة السببية.

لكن هناك جانب سلبي: كلما كانت هذه الأدوات تحرر الفيديو الحقيقي بشكل أكثر سلاسة، زادت متطلبات التحقق من صحة المواد. لذا فإن Void هو في نفس الوقت أداة VFX قوية وتذكير بأن الخط بين التحرير وإعادة كتابة الأحداث يصبح أرق.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →

Netflix تطلق Void — نموذج لإزالة الأجسام من مقاطع الفيديو مع الأخذ في الاعتبار فيزياء المشهد

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع