Музыкальный пعنиمعк NEWAVE: пعنчему فيаши плейлиمعты бعنльше не будут прежними
لقد بدا البحث عن الموسيقى في خدمات البث لوقت طويل وكأنه العمل في قسم الأرشيف بمكتبة: إذا لم تكن تعرف العنوان الدقيق أو حتى النوع على الأقل، فإن احتمالاتك في…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
لقد بدا البحث عن الموسيقى في خدمات البث لوقت طويل وكأنه العمل في قسم الأرشيف بمكتبة: إذا لم تكن تعرف العنوان الدقيق أو حتى النوع على الأقل، فإن احتمالاتك في العثور على "ذاك بالذات" تقترب من الصفر. لسنوات اعتدنا على مرشحات صارمة وعلامات وفئات ابتكرها المسوقون وليس المستمعون. لكن فريق NEWAVE قرر أنه حان الوقت لإنهاء هذا النهج البيروقراطي للفن وتعليم الآلات فهم الموسيقى كما نفهمها نحن—من خلال الصور والمشاعر والسياق. بدلاً من إجبار المستخدمين على النقر فوق أزرار بعنوان "روك" أو "الألفينيات"، ابتكر المطورون نظام استرجاع ذكياً يسمع حرفياً ما تكتبه في شريط البحث.
يقوم المشروع على مفهوم أنيق إلى حد ما، لكنه معقد من الناحية التقنية لشبكات عصبية ثنائية المشفر. إذا لم نخض في أعماق الكود، تخيل مترجمين. أحدهما يستمع إلى مسار صوتي ويترجمه إلى مجموعة من الإحداثيات الرياضية، بينما يقوم الآخر بنفس الشيء مع استعلام النص الخاص بك. تتمثل مهمة التدريب في هذه الحالة في التأكد من أن "الكمان الحزين" في النص وتسجيل صوتي حقيقي بكمان ينتهيان في نفس نقطة هذا الفضاء الرياضي. لتحقيق ذلك، استخدمت NEWAVE التعلم التباعدي: تم إجبار النموذج ليس فقط على التعرف على الأشياء المتشابهة، بل على دفع الأشياء المختلفة بنشاط. هذا سمح للنظام بالتقاط الفروق الدقيقة التي عادة ما تضيع في التعليقات البسيطة بالعلامات.
تكمن مشكلة معظم الحلول الموجودة في محدوديتها: إما أنها تفهم النص جيداً لكنها تفهم الصوت بشكل سيء، أو العكس. لتجنب هذا الفخ، استخدم المطورون عشرة مجموعات بيانات مختلفة في نفس الوقت. هذا ليس مجرد مسألة حجم البيانات؛ الأمر يتعلق بالتنوع. قد تكون مجموعة بيانات واحدة غنية بالوصف التقني للإيقاع والآلات، بينما تكون مجموعة أخرى غنية بتقييمات المستمعين العاطفية. بدمجها، علمت NEWAVE نظامهم فهم أن "الموسيقى لرحلة عبر المدينة الليلية" ليست مجرد BPM معينة، بل مزيج محدد من المركبات والرجع والنمط الإيقاعي.
تستحق آلية الدمج المتأخر انتباهاً خاصاً. في عالم التعلم الآلي، غالباً ما تصبح العامل الحاسم بين "يعمل فقط" و"يعمل بشكل مثالي". بدلاً من خلط جميع الميزات في كومة واحدة من البداية، يحلل النظام البيانات عبر قنوات مختلفة ويجمع نتائجها في المرحلة النهائية من اتخاذ القرار. هذا يحافظ على نقاء ميزات كل مجال—النص والصوت—ويعطي أكثر النتائج صلة. نتيجة لذلك، نحصل على بحث يفهم الاستعلام "شيء ما بأسلوب Radiohead المبكر، لكن مع باص أكثر عدوانية" دون الحاجة إلى تعليق يدوي لملايين المسارات.
لماذا تحتاج الصناعة إلى كل هذا؟ الإجابة تكمن على السطح: إن نموذج التوصية الحالي في الخدمات الكبرى بدأ يفقد فعاليته. غالباً ما تحصل الخوارزميات على حلقات من الفنانين المتشابهين، مما يخلق حجرات صدى يصعب على المستمعين الهروب منها. يفتح الاسترجاع الذكي من NEWAVE الأبواب لما يسمى "البحث الصفري"، عندما لا تحتاج إلى معرفة اسم الفنان للعثور على أغنيتك المفضلة الجديدة. هذا يغير قواعد اللعبة ليس فقط للمستمعين، بل أيضاً للموسيقيين المستقلين الذين يمكن الآن العثور على إبداعهم من خلال وصف الأجواء، وليس فقط من خلال الميزانيات التسويقية بملايين الدولارات والتضمين في قوائم التشغيل الرسمية.
بالطبع، نحن لا نزال في بدايات الطريق، حيث تحاول الذكاء الاصطناعي تفسير المشاعر الإنسانية من خلال المتجهات والمصفوفات. لكن تقدم NEWAVE يوضح أن الخط بين الوصف التقني للملف ومحتواه العاطفي يصبح أكثر وأكثر ضبابياً. إذا كنا في السابق نتكيف مع واجهات محركات البحث، فإن الآلات الآن بدأت أخيراً تتكيف مع لغتنا. وهذا ربما يكون أكثر تطور منطقي للتكنولوجيا في عصر يوجد فيه محتوى كثير جداً ووقت قليل جداً لتصنيفه يدوياً.
الخلاصة: أثبتت NEWAVE أن البحث الموسيقي يمكن أن يكون إنسانياً. هل يعني هذا نهاية عصر قوائم التشغيل المختارة بعناية، أم ستصبح الذكاء الاصطناعي مساعداً مثالياً لها ببساطة؟
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.