Habr AI→ المصدر

ACE-Step 1.5 من ACE Studio يتفوق على Suno v5 ويشغّل توليد الموسيقى محليًا

ACE-Step 1.5 من ACE Studio وStepFun هو حالة نادرة تلحق فيها نماذج الموسيقى open source بـ AI التجاري. يعمل النموذج محليًا بدءًا من 4 GB من VRAM، ويُنتج…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
ACE-Step 1.5 من ACE Studio يتفوق على Suno v5 ويشغّل توليد الموسيقى محليًا
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

يؤكد ACE-Step 1.5 أنه أول نموذج مفتوح المصدر قوي حقاً لتوليد الموسيقى لا يعمل محلياً فحسب، بل يواكب أيضاً الخدمات المغلقة من حيث الجودة. وفقاً للمطورين والتحليل على Habr، يتفوق النموذج على Suno v5 في SongEval، ويعمل من 4 غيغابايت من ذاكرة الوصول العشوائي ويولد مساراً كاملاً في ثوانٍ معدودة.

لماذا هذا مهم حتى الآن، كان سوق الذكاء الاصطناعي للموسيقى منقسماً

بطريقة بسيطة جداً: إذا احتاج المستخدمون إلى نتائج مريحة وعالية الجودة، توجهوا إلى Suno أو Udio أو خدمات مغلقة أخرى. كانت هناك بدائل مفتوحة المصدر، لكنها عادة ما تخسر إما في الجودة أو السرعة أو متطلبات الأجهزة. يحاول ACE-Step 1.

5 كسر هذا النمط. تم إطلاق النموذج بواسطة ACE Studio و StepFun، وجنباً إلى جنب مع الإطلاق، نشروا ورقة على arXiv — بالنسبة لمولدات الموسيقى هذا لا يزال نادراً. وفقاً للجدول الرسمي، يحقق ACE-Step 1.

5 درجة 8.09 على SongEval، وتحقق نسخة ACE-Step 1.5 XL درجة 8.

12. وللمقارنة، يبلغ Suno v5 في نفس الجدول 7.87.

في الوقت نفسه، يُظهر النموذج مؤشرات قوية في محاذاة الكلمات: 8.35 للنسخة الأساسية و 8.42 لنسخة XL.

في الواقع، هذا يعني ليس فقط تصنيفاً عاماً أعلى للمسار، بل أيضاً توافقاً صوتياً أفضل مع النص، وهو يظل أحد أصعب المهام للموسيقى التوليدية.

كيف يعمل النموذج الفكرة الأساسية لـ ACE-Step هي فصل التأليف عن

التوليف. في المرحلة الأولى، يعمل نموذج لغة يأخذ المحفز من المستخدم ويحوله إلى خطة مفصلة للأغنية: النوع والإيقاع وتركيبة الآيات والفواصل والآلات والكلمات والبيانات الوصفية. في الورقة، يُوصف هذا الوحدة بأنها نوع من وكيل المؤلف.

فهو لا يولد الصوت بشكل مباشر، بل يزيل من وحدة الصوت الرئيسية مهمة تخمين ما يريده المستخدم فعلاً. كلما كانت الخطة أكثر دقة، قل الفوضى في المرحلة التالية. في المرحلة الثانية، يدخل محول الانتشار.

تستخدم النسخة الأساسية DiT بحوالي ملياري معامل، بينما تستخدم نسخة XL أربعة مليارات. يتلقى الخطة الجاهزة ويوليد الصوت في الفضاء الكامن، والتسريع يتحقق من خلال التقطير: بدلاً من خطوات الانتشار المعتادة 50–100، يتسع النموذج إلى 4–8 خطوات. ومن هنا أرقام السرعة: مسار كامل في حوالي ثانيتين على A100 وأقل من 10 ثوان على RTX 3090.

إنها على وجه التحديد الجمع بين LM كمخطط وDiT كمحرك عرض هو ما يجعل هذا الإصدار جديراً بالملاحظة.

ما يمكنه فعله في الممارسة العملية بالإضافة إلى text-to-music العادي،

يحاول ACE-Step 1.5 أن يصبح أداة عالمية للعمل الموسيقي، وليس مجرد مولد لمسار واحد بناءً على الوصف. يتضمن المشروع نفس السيناريو المتوقع من برامج المحترفين: يمكنك ليس فقط إنشاء أغنية من الصفر، بل أيضاً التدخل في المواد الموجودة وإعادة بناء جزء منفصل وإعادة ترتيب المصدر أو تكييف المصاحبة مع الصوت.

بالنسبة لنظام مفتوح المصدر، هذا بالفعل مستوى بيئة عمل كاملة وليس مجرد عرض توضيحي. توليد الأغطية — إعادة ترتيب تكوين موجود بأسلوب مختلف إعادة الطلاء — إعادة توليد أجزاء منفصلة دون إعادة بناء المسار بأكمله Vocal-to-BGM — إنشاء مصاحبة للأصوات الجاهزة ضبط LoRA — التكيف مع أسلوبك الخاص على مجموعة صغيرة من الأغاني * دعم 50+ لغة ومسارات من 10 ثوانٍ إلى 10 دقائق حجة قوية أخرى هي متطلبات الأجهزة. يمكن للوضع الأساسي أن يعمل محلياً بأقل من 4 غيغابايت من ذاكرة الوصول العشوائي، وللتكوينات الأثقل، تتوفر خيارات التفريغ.

يدعم المشروع ليس فقط NVIDIA بل أيضاً Mac على Apple Silicon و AMD و Intel، ويقتصر الإطلاق المحلي على برامج جاهزة بواجهة Gradio. بالنسبة للموسيقيين والمنتجين والمطورين، يبدو هذا كفرصة حقيقية للتجربة دون اشتراك سحابي وبدون إرسال المواد إلى خدمة خارجية.

حيث توجد النقاط الضعيفة المطورون لا يخفون حقيقة أن النموذج لديه قيود

ملحوظة. المشكلة الرئيسية هي عدم استقرار النتائج. يمكن للمحفز نفسه أن ينتج مساراً قوياً على بذرة واحدة وضعيفاً على أخرى، لذلك يسمي المؤلفون هذا السلوك مباشرة gacha-style.

كما يتم سرد أصوات خشنة تفتقر إلى الدقة المناسبة والأداء الضعيفة في بعض الأنواع مثل راب صيني وانتقالات غير طبيعية عند إعادة الطلاء والتحكم الخشن جداً بمعاملات موسيقية. بمعنى آخر، لا يزال من غير الممكن تحديد أغنية بمنطق متناسق دقيق ونتائج يمكن التنبؤ بها تماماً. لهذا السبب، من المهم عدم الخلط بين النموذج والخدمة.

يظل Suno يفوز مع معظم المستخدمين من حيث البساطة: فتح الموقع، اكتب بضعة أسطر، احصل على أغنية. يتطلب ACE-Step 1.5 التثبيت والمعالج الرسومي وضبط المحفزات والتسامح مع التباين.

لكن في المقابل فإنه يوفر الخصوصية وخط أنابيب محلي والاشتراك غير الإجباري والقدرة على الضبط الدقيق من خلال LoRA. بالنسبة لمستخدم جماعي، هذا ليس بعد بديلاً عن Suno، لكن بالنسبة لأولئك الذين يحتاجون إلى السيطرة على العملية، الوضع يتغير بالفعل.

ما يعنيه هذا يُظهر ACE-Step 1.5 أن توليد الموسيقى يتوقف عن كونه منطقة

حصرية للأنظمة الأساسية المغلقة فقط. إذا كان نموذج مفتوح المصدر بالفعل يتفوق على لاعب تجاري على بعض المقاييس ويعمل على أجهزة المستهلك، فسيتحرك السوق نحو أدوات ذكاء اصطناعي للموسيقى محلية وقابلة للتخصيص وأرخص.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…