MarkTechPost→ المصدر

أطلقت Stability AI نموذج Stable Audio 3 لتوليد الموسيقى السريع

أطلقت Stability AI نموذج Stable Audio 3 — نماذج مفتوحة المصدر لتوليد الموسيقى الآلية والمؤثرات الصوتية. تستخدم النماذج تدريباً ثلاثي المراحل مع flow matching. ي

أطلقت Stability AI نموذج Stable Audio 3 لتوليد الموسيقى السريع
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

قدمت Stability AI مكتبة Stable Audio 3 الجديدة — عائلة جديدة من النماذج لإنشاء الموسيقى الآلية والمؤثرات الصوتية. على عكس الإصدارات السابقة، النماذج الجديدة أسرع بكثير وتتطلب موارد حسابية أقل، مما يجعل تكنولوجيا إنشاء الصوت في متناول نطاق واسع من المستخدمين. نشرت الشركة أوزان النماذج المفتوحة، مما يسمح للمطورين باستخدامها بحرية وتكاملها في تطبيقاتهم.

الجودة المتاحة على أي معدات

التغيير الرئيسي في الإصدار الثالث هو ديمقراطية الوصول إلى إنشاء الصوت. أطلقت الشركة أوزان مفتوحة لمتغيرين من النماذج: صغير ووسط. يعمل المتغير الصغير على معالج MacBook Pro M4 بدون أي وحدة معالجة رسومات إضافية — كمبيوتر محمول عادي يمتلكه معظم المستخدمين حول العالم كافٍ. هذا يعني أن حتى الأشخاص بدون معدات مكلفة يمكنهم إنشاء الصوت والموسيقى على أجهزتهم.

يتطلب المتغير الوسط بطاقة رسومات بقوة 8 جيجابايت من ذاكرة الوصول العشوائي، وهو ما تملكه الغالبية العظمى من وحدات معالجة الرسومات الاستهلاكية التي تم إطلاقها خلال آخر 2-3 سنوات. حتى المستخدمون الذين لديهم بطاقات رسومات منخفضة التكلفة مثل GTX 1660 أو RTX 3060 يمكنهم تشغيل النموذج محليًا على أجهزتهم الخاصة، بدون اعتماد على خدمات السحابة والاشتراكات الشهرية.

يولد كلا المتغيرين صوتًا استريو بتردد عينات 44.1 كيلو هرتز، وهو المعيار الاحترافي للموسيقى والمؤثرات الصوتية. هذا يعني أن الجودة عالية بدرجة كافية حتى للاستخدام في المشاريع التجارية، بما في ذلك الأفلام والألعاب والملفات الصوتية والألبومات الموسيقية.

حلول الهندسة من أجل السرعة

خلف الإحكام والسرعة كانت هناك معمارية تدريب غير تقليدية. تخلت Stability AI عن النهج التقليدي واستخدمت عملية مبتكرة ثلاثية المراحل سمحت بتحسين جودة الصوت وتقليل متطلبات الحساب في نفس الوقت:

  • Flow matching في المرحلة الأولى للتدريب الأساسي للنموذج على مجموعات ضخمة من بيانات الصوت من مصادر مختلفة
  • Distillation warmup — تكنولوجيا ضغط النماذج التي تحافظ على الجودة رغم التقليل الجذري لحجم الملف
  • Adversarial post-training للتحسين النهائي للواقعية وجودة الصوت إلى مستوى يصعب تمييزه عن الأداء البشري

حققت هذه المقاربة الثلاثية المراحل توازنًا نادرًا بين الجودة والسرعة. في التعلم الآلي التقليدي، غالبًا ما يتناقض هذان المطلبان: الجودة العالية تتطلب نماذج كبيرة تعمل ببطء، بينما السرعة تتطلب ضغطًا يفقد الجودة. وجدت Stability AI الوسط الذهبي.

النتائج أفضل من المنافسين

على معيار BBC Sound Effects، حيث يتم اختبار النماذج على مقاطع صوتية مدتها 5 ثوانٍ، حصل Stable Audio 3 الوسط على درجة FAD (Fréchet Audio Distance) بقيمة 0.369. هذا أقل من جميع النماذج المتاحة بشكل علني والمختبرة في بحث الشركة الآخر. الفرق بين SA3 والمنافس الأقرب يبلغ حوالي 15-20٪، وهو يعتبر تحسينًا كبيرًا في عالم النماذج التوليدية.

للرجوع: FAD أقل يعني جودة صوت أفضل. يولد النموذج صوتًا يبدو أكثر طبيعية وأقرب إلى الأمثلة الحقيقية في مجموعة البيانات. بعبارة أخرى، تجاوز Stable Audio 3 جميع الحلول التنافسية المتاحة بشكل علني في السوق، بما في ذلك الإصدارات السابقة من نماذج الشركة الخاصة.

ما معنى هذا

ينتقل إنشاء الصوت من مجال تجريبي متخصص إلى أداة عملية للعمل. سيتمكن الموسيقيون المستقلون وصانعو محتوى الفيديو من إنشاء الموسيقى الخلفية والمؤثرات الصوتية والأجواء المطلوبة مباشرة على أجهزتهم المحمولة، بدون الاعتماد على خدمات السحابة والإنترنت. يعني الإنشاء المحلي أيضًا خصوصية أكبر — لا يتم إرسال أي بيانات إلى الخوادم.

بالنسبة للاستوديوهات المهنية، يعني هذا أيضًا انخفاض التكاليف في ترخيص الموسيقى الخالية من الملكية والمكتبات الصوتية. بدلاً من شراء تركيبات جاهزة، سيتمكن المطورون وصانعو المحتوى من إنشاء محتوى صوتي فريد حرفيًا في دقائق، مما يوفر الأموال والوقت المستهلك في البحث عن موسيقى مناسبة للمشاريع.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…