DeepMind Blog→ المصدر

قدّمت Google نموذج Gemini Omni Flash — نموذج لإنشاء الفيديوهات من النصوص والصور

أطلقت Google نموذج Gemini Omni Flash — نموذج جديد لتوليد الفيديو من النصوص والصور والتسجيلات الصوتية. يفهم الفيزياء ويحرّر الفيديوهات عبر اللغة الطبيعية ويحافظ

معالج بواسطة الذكاء الاصطناعي من DeepMind Blog؛ بتحرير Hamidun News
قدّمت Google نموذج Gemini Omni Flash — نموذج لإنشاء الفيديوهات من النصوص والصور
المصدر: DeepMind Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدّمت Google نموذج Gemini Omni Flash — نموذج ذكاء اصطناعي جديد ينشئ فيديوهات عالية الجودة من مزيج من النصوص والصور والتسجيلات الصوتية والفيديوهات الأخرى في الوقت نفسه. تمثل هذه خطوة أساسية كبرى نحو توليد الفيديو الكامل، حيث يصبح الذكاء الاصطناعي مخرجاً رقمياً وكاتب سيناريو ومحرراً في شخص واحد.

الفيزياء والمنطق في نافذة واحدة

يعالج نموذج Gemini Omni Flash عدة أنواع من البيانات الموصولة بالتوازي ويحولها إلى محتوى فيديو. يتميز النموذج بشكل خاص بمحاكاة دقيقة للفيزياء: فهو ينمّذج بشكل صحيح الجاذبية والطاقة الحركية وديناميكا السوائل وتفاعل الأجسام في الفضاء ثلاثي الأبعاد. هذا يعني أن الحركات تبدو طبيعية — الأشياء تسقط بشكل صحيح، والسائل ينسكب بمنطقية، والقماش ينطوي بشكل واقعي، والشعر يتمايل في الهواء.

كانت هذه التفاصيل تتطلب عملاً يدوياً من فنّاني الرسوميات ثلاثية الأبعاد ومتخصصي المحاكاة. الآن يتعامل الذكاء الاصطناعي معها فوراً، معالجاً فكرتك في الوقت الفعلي. بالنسبة لإنتاج الفيديو، هذا يعني أن المخرجين يمكنهم تجربة الأفكار بسرعة أكبر بكثير.

الابتكار الرئيسي هو أن النموذج يفكّر فيما يجب أن يحدث بعد ذلك. لا يقتصر الأمر على توليد متتالية ميكانيكية من الإطارات، كما فعلت أدوات توليد الفيديو المبكرة. بدلاً من ذلك، يفهم Omni السياق والمعرفة العالمية المدمجة في Google: من يكون في أي مكان، وما الذي سيحدث بشكل منطقي في مشهد معين، وكيف يجب على الشخصيات أن تتحرك بالنسبة لبعضها والبيئة المحيطة بها.

التحرير من خلال المحادثة

الميزة الثانية الثورية هي تحرير الفيديو من خلال اللغة الطبيعية. لا تفتح المونتاج النهائي، ولا تبحث عن المقطع المطلوب في المكتبة، ولا تضع المؤثرات يدوياً. تكتب ببساطة: "أضف المزيد من الناس في الخلفية"، "غيّر لون فستان الشخصية من الأزرق إلى الأحمر"، "اجعل المشهد أكثر إشراقاً وبهجة".

يفهم النموذج هذه الطلبات ويحرّر الفيديو دون تصدير وسيط أو إعادة تحويل أو إعادة استيراد. يتم الحفاظ على كل الديناميكية والاستمرارية في الشخصيات والإضاءة — فقط ما هو ضروري يتغير. هذا يوفر ساعات من العمل الروتيني.

جميع الفيديوهات مزودة تلقائياً بعلامة مائية مخفية من SynthID — بصمة غير مرئية للعين البشرية ولكن قابلة للقراءة للآلات. هذا حاسم للتحقق: يمكن إثبات بشكل قاطع أن الفيديو تم إنشاؤه بواسطة الذكاء الاصطناعي، وليس تم تصويره بكاميرا. بهذه الطريقة يتم منع المعلومات المضللة وتكشف deepfakes من النظرة الأولى.

حيث تم الإطلاق وما القادم

  • تطبيق Gemini — تطبيق الويب والجوال
  • Google Flow — مساعد رقمي شخصي
  • YouTube Shorts — مجانياً لجميع المستخدمين
  • اشتراكات Google AI Plus و Pro و Ultra

سيحصل المطورون والمؤسسات على الوصول عبر API لاحقاً. تلاحظ Google أنها لا تزال تعمل على النشر الآمن لميزات تحرير الصوت وتوليد الكلام. يلزم هنا حذر أكبر — فالصوت سمة شخصية أكثر حساسية.

ماذا يعني هذا

يصبح محتوى الفيديو سريع الإنشاء مثل النص أو البريد الإلكتروني. في الماضي، كان فيديو احترافي يتطلب معرفة متخصصة بتحرير الفيديو، وبرنامج باهظ الثمن مثل Adobe Premiere، وساعات من العمل الروتيني. الآن تتحول الفكرة الإبداعية إلى نص، وفي دقائق يكون لديك فيديو جميل جاهز. سيسرّع هذا بشكل جذري من إنشاء المحتوى للتسويق والتعليم والترفيه والاتصالات الداخلية للشركات. ستتمكن الشركات الصغيرة من التنافس مع الشركات الكبيرة في جودة مواد الفيديو. من المحتمل أن تظهر معايير قريباً للتوسيم الإلزامي لمحتوى الفيديو، والشركة التي تتكيف أولاً مع العمل مع توليد الفيديو ستحصل على ميزة تنافسية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…