بات Gemini ينشئ الموسيقى من النصوص والصور
أضافت Google إلى تطبيق Gemini ميزة لتوليد الموسيقى تعتمد على نموذج Lyria 3، وهو أكثر تطويرات الشركة تقدمًا في هذا المجال. ويمكن للمستخدمين إنشاء مقاطع مدتها…
معالج بواسطة الذكاء الاصطناعي من DeepMind Blog؛ بتحرير Hamidun News
لقد أصبح الحد الفاصل بين النص والصوت أكثر رقة: قامت شركة جوجل بدمج أداة توليد الموسيقى القائمة على نموذج Lyria 3 في تطبيق Gemini. الآن يمكن لأي مستخدم أن يصف الصوت المطلوب بالكلمات أو يحمل صورة—والحصول على مقطع مدته 30 ثانية جاهز للاستخدام. لا توجد نوتة موسيقية، ولا معرفة بالاستوديو، ولا معدات خاصة. هذا ليس مجرد ميزة جديدة في قائمة طويلة من التحديثات—بل محاولة من جوجل لإعادة تعريف من يحق له فعلاً أن يُسمى مؤلفاً موسيقياً.
لفهم مدى هذه الخطوة، من المهم تذكر السياق. يوجد توليد الصوت من النص منذ عدة سنوات: Suno و Udio و MusicGen من Meta—كلهم يقدمون إمكانيات مماثلة بجودة متفاوتة. لكن معظم هذه الخدمات كانت موجودة بشكل منفصل عن المنتجات السائدة، وتتطلب التسجيل في تطبيقات متخصصة، وبقيت هواية متخصصة للجماهير المجهزة تقنياً. تراهن جوجل على شيء مختلف: Lyria 3 مدمجة مباشرة في Gemini—تطبيق يستخدمه مئات الملايين من الأشخاص حول العالم. عائق الدخول يختفي تماماً تقريباً.
Lyria 3 هو أكثر نموذج موسيقي متقدماً في جوجل حتى الآن. طورت الشركة نموذجها كجزء من اتجاه البحث في DeepMind، والآن نتيجة هذا العمل تنتقل من المختبر إلى جيب المستخدم العادي. الآلية بسيطة: تصف الحالة المزاجية أو النوع أو الآلات أو الأجواء بالنص—على سبيل المثال، "موسيقى لو-فاي مريحة مع البيانو والمطر خارج النافذة"—والنموذج يولد مقطعاً. المسار البديل أكثر إثارة للاهتمام: يمكنك تحميل صورة، و Lyria 3 تفسر محتواها البصري بنفسها إلى صورة موسيقية. تصبح غروب الشمس فوق البحر لحناً واحداً، والازدحام الحضري شيئاً مختلفاً تماماً. هذا النهج المتعدد الأنماط هو ما يميز عرض جوجل عن معظم المنافسين.
بالنسبة للصناعة، هذه إشارة بعدة مستويات من المعنى. الأول واضح: تتنافس أكبر شركات التكنولوجيا بجدية على الجمهور الإبداعي. دمجت OpenAI بالفعل توليد الصور في ChatGPT، وتطور Meta أدواتها الخاصة متعددة الأنماط، وتبني Apple بصمت وظائف الذكاء الاصطناعي في نظامها البيئي. جوجل مع Lyria 3 في Gemini تجعل الموسيقى ساحة المعركة التالية. المستوى الثاني أكثر تعقيداً: ظهور مثل هذه الأدوات في منتج سائد يثير حتماً أسئلة حول حقوق النشر والربحية. على أي بيانات تم تدريب Lyria 3؟ ماذا يحدث للمقطع الذي ولدته—هل يمكنك نشره أو بيعه أو استخدامه في مشاريع تجارية؟ حتى الآن، لم تقدم جوجل إجابات رسمية شاملة، ويبقى هذا منطقة غموض ستراقبها الصناعة بحذر.
بالنسبة للمستخدم العادي، العواقب أكثر مباشرة بكثير. يحصل منشئ البث على القدرة على إنشاء مقدمة فريدة في دقيقة. يحصل منشئ محتوى الفيديو على موسيقى خلفية دون الحاجة للبحث عن مقاطع مرخصة Creative Commons. يمكن للشخص الذي كان لديه لحن في رأسه منذ فترة طويلة أخيراً تجسيده دون معرفة أي نغمة. هذا الجمهور—ليس الموسيقيين المحترفين، بل ملايين الأشخاص الذين لديهم احتياجات إبداعية بلا وسائل تقنية—هو الهدف الحقيقي لجوجل. ثلاثون ثانية بالتأكيد قصيرة، لكنها صيغة كافية تماماً للنغمات والمقدمات والإدراجات الجوية والتجارب.
يجب أن ننظر إلى المستقبل هنا دون فرح زائد، لكن أيضاً دون تشكك. لا تزال توليد الموسيقى بعيدة عن تهديد الموسيقارين المحترفين—تماماً كما لم تحل الذكاء الاصطناعي النصي محل الصحفيين. لكنها تغير اقتصادات الإبداع: تقلل تكلفة إنتاج المحتوى، وتوسع دائرة الأشخاص القادرين على إنشاء المحتوى، وتنشئ أدوار مهنية جديدة—أولئك الذين يستطيعون صياغة الطلبات بمهارة وتحرير النتيجة. Lyria 3 في Gemini ليست نهاية المهنة الموسيقية، بل بداية محادثة حول ما يعني أن تكون مؤلفاً في عصر تعرف فيه الأداة نفسها كيفية العزف.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.