@demishassabis→ المصدر

Google تقدم Gemini Omni — محرر فيديو متعدد الوسائط

عرضت Google نموذج Gemini Omni المتخصص في العمل مع الصور والفيديو والصوت. يقوم بإنشاء مشاهد جديدة بناءً على المحتوى المرفوع، مما يسمح بتطوير الأفكار بشكل…

معالج بواسطة الذكاء الاصطناعي من @demishassabis؛ بتحرير Hamidun News
Google تقدم Gemini Omni — محرر فيديو متعدد الوسائط
المصدر: @demishassabis. كولاج: Hamidun News.
◐ استمع للمقال

عرضت Google نموذج Gemini Omni من الجيل الجديد، والذي يحقق قفزة نوعية كبيرة في فهم وتحرير المحتوى متعدد الوسائط. بخلاف أسلافه، يعمل Omni بشكل أصلي مع الصور والفيديوهات والصوت في نفس الوقت، وينشئ مشاهد جديدة من المادة المرفوعة.

ما الذي يستطيع Gemini Omni القيام به

الفرق الرئيسي في Omni هو أنه يعمل مع عدة أنواع من المحتوى في نفس الوقت. يمكن للمستخدم رفع فيديو وإضافة صورة أو تسجيل صوتي - سيفهم النموذج المادة ويحولها إلى مشهد جديد. قال ديميس هاسابيس، الرئيس التنفيذي لـ DeepMind، إن هذا يمثل «قفزة كبيرة في فهم العالم والتحرير متعدد الوسائط».

في المرحلة الحالية، المخرج الرئيسي هو الفيديو. لكن Google تخطط لتوسيع الإمكانيات: بمرور الوقت، سيتمكن النظام من توليد وتحرير المحتوى بأي صيغة - نص وصوت وصور ونماذج ثلاثية الأبعاد. هذا يختلف عن الأدوات الحالية التي تتخصص في نوع واحد من المحتوى.

كيف يعمل التحرير

العملية لا تبدأ من الصفر. بدلاً من ذلك، يرفع المستخدم محتواه - فيديو أو صورة أو صوت - و Omni يحول ذلك إلى نسخة جديدة. يمكن أن يكون هذا تغيير الإضاءة أو إضافة كائنات جديدة في المشهد أو إعادة ترتيب الأشخاص أو تحويل أجواء الإطار. يفهم النظام السياق ويحافظ على معنى المحتوى الأصلي، لكنه يسمح بالتكرار على الأفكار.

  • رفع الفيديو بأي صيغة وجودة
  • تغيير عناصر المشهد من خلال أوصاف نصية
  • إضافة كائنات وشخصيات جديدة إلى الإطار
  • تحسين متكرر من خلال عدة دورات تحرير
  • دعم المطالبات متعددة الوسائط (نص وصور وصوت)

التطبيق في الصناعة

بالنسبة لمنشئي المحتوى، هذا يبسط سير العمل بشكل جذري. بدلاً من استخدام أدوات منفصلة للفيديو والصوت والصور، يمكن العمل في نظام بيئي موحد. هذا مهم بشكل خاص للمبدعين المستقلين بميزانيات محدودة.

في صناعة السينما الاحترافية، يمكن لـ Gemini Omni تسريع مرحلة ما بعد الإنتاج. سيتمكن محررو الفيديو من توليد متغيرات المشاهد بسرعة، والمخرجون من تجربة نسخ مختلفة من الإطار دون إعادة التصوير. بالنسبة للتسويق والإعلان، هذا يعني تكييفاً أسرع للمحتوى لمنصات وجماهير مختلفة.

ماذا يعني هذا

ظهور الأنظمة متعددة الوسائط الحقيقية يمثل انتقالاً من أدوات الذكاء الاصطناعي المتخصصة بشكل ضيق إلى أدوات عامة الاستخدام. تتجه Google نحو نموذج يرى ويسمع ويفهم العالم بنفس طريقة الإنسان، ويمكنه إعادة إنشاء أو تحرير هذا العالم فوراً. هذه مرحلة وسيطة في الطريق نحو ذكاء اصطناعي أكثر عمومية، قادر على العمل مع أي نوع من المعلومات في نفس الوقت.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…