النماذج

نموذج تحويل النص إلى فيديو (Text-to-Video Model)

نموذج تحويل النص إلى فيديو هو نظام ذكاء اصطناعي توليدي يدمج مقاطع فيديو من نصوص طبيعية اللغة، حيث ينتج تسلسلات إطارات متماسكة زمنياً تطابق الحركة أو المشهد أو السرد الموصوف.

نموذج تحويل النص إلى فيديو هو شبكة عصبية توليدية تنتج تسلسلات فيديو من الأوصاف النصية. على عكس نماذج تحويل النص إلى صور، يجب على هذه الأنظمة الحفاظ على التماسك الزمني—هويات الكائنات والإضاءة والحركة يجب أن تبقى متسقة عبر عشرات أو مئات الإطارات—بينما تستوفي في الوقت نفسه دلالات المطالبة.

ينسحب النهج السائد نماذج الانتشار الكامنة إلى البعد الزمني. يتعلم محول 3D U-Net أو محول الفيديو تقليل الضوضاء بشكل مشترك لتسلسلات إطارات فيديو كامنة مشروطة بتضمينات نصية. يستخدم Sora من OpenAI (معلن في فبراير 2024) طريقة spacetime-patch، مع التعامل مع الفيديو كتسلسلات من الرموز spatiotemporal المضغوطة المعالجة بواسطة معمارية محول الانتشار (DiT). يطبق Veo من Google (2024) نهجاً انتشاراً قائماً على محول مشابهاً مدرباً على مجموعة فيديو مملوكة كبيرة. يستخدم Runway Gen-3 Alpha و Kling (Kuaishou) معماريات قابلة للمقارنة مع اختلافات في بيانات التدريب وعناصر التحكم في الاستدلال. لا تزال عملية توليد مقاطع متعددة الثواني عالية الحركة مكثفة الحوسبة، مع أوقات الاستدلال التي تتراوح من ثوانٍ إلى دقائق لكل مقطع اعتماداً على الدقة والطول.

تقلل أدوات تحويل النص إلى فيديو تكلفة إنتاج المحتوى للفيديو قصير الشكل والإعلان والتصور المسبق في تطوير الأفلام والألعاب. كما أنها تزيد من المخاوف حول الوسائط الاصطناعية: يمكن الآن لأي شخص يملك إمكانية الوصول إلى API إنشاء فيديو مقنع لشخصية عامة، مما يدفع العمل على معايير أصول المحتوى مثل C2PA (ائتلاف أصول المحتوى والمصادقة) والاهتمام التنظيمي في عدة اختصاصات.

اعتباراً من منتصف 2025، اشتملت الأنظمة المتاحة تجارياً على OpenAI Sora و Google Veo 2 و Runway Gen-3 Alpha و Kling (Kuaishou) و Pika 2.0 و Seedance (ByteDance). تراوحت المخرجات النموذجية بين 5 إلى 30 ثانية بدقة تصل إلى 1080p. ظلت الحركة الدقيقة المتعددة الكائنات والهوية المتسقة للشخصية عبر اللقطات والسرد المتماسك متعدد المشاهد تحديات بحثية نشطة لم تعالجها حتى أقوى النماذج إلا جزئياً.

مثال

توجه وكالة تسويق نموذج تحويل النص إلى فيديو بـ 'دراج يركب عبر مدينة ممطرة ليلاً، انعكاسات نيون على الرصيف الرطب، الحركة البطيئة السينمائية' وتستخدم مقطع 10 ثوانٍ الناتج كمادة ثانوية لإعلان منتج، مما يلغي يوم تصوير في الموقع.

مصطلحات مرتبطة

← المسرد