The Verge→ المصدر

أتاح The Atlantic البحث في 21 مليون مسار استُخدمت لتدريب AI

اكتشف صحفي من The Atlantic أربع مجموعات بيانات موسيقية لتدريب نماذج AI — بإجمالي 21 مليون مسار. وأكدت Google وStability AI في أوراق علمية أنهما استخدمتا هذه…

معالج بواسطة الذكاء الاصطناعي من The Verge؛ بتحرير Hamidun News
أتاح The Atlantic البحث في 21 مليون مسار استُخدمت لتدريب AI
المصدر: The Verge. كولاج: Hamidun News.
◐ استمع للمقال

نشر الصحفي أليكس ريسنر من ذا أتلانتك نتائج تحقيق استقصائي: حدد أربع مجموعات بيانات تحتوي على موسيقى استخدمتها شركات التكنولوجيا لتدريب نماذج الذكاء الاصطناعي التوليدية. علاوة على ذلك، جعل المجموعات الأربع متاحة للبحث العام. الآن يمكن لأي شخص التحقق مما إذا كانت مقاطعه الموسيقية قد انتهت بها الحال في بيانات التدريب.

ما الذي وجده ريسنر

اثنتان من أكبر مجموعات البيانات مذهلتان من حيث النطاق: إحداهما تحتوي على 12 مليون مقطع، والثانية — 9 ملايين. مجتمعة، هذا 21 مليون ملف موسيقي في قاعدتي بيانات فقط. مجموعتا بيانات أخريان أكثر تواضعاً، لكن لا تزال مهمة: تضمان كل منهما أكثر من 100000 تسجيل. بشكل إجمالي، هذا حجم ضخم من المحتوى — معظم التراث الموسيقي الذي يمكن جمعه تلقائياً. تمت تنزيل مجموعات البيانات الأربع آلاف مرة. من المستحيل تحديد المستخدمين الفعليين، لكن Google وStability AI أقرت رسمياً في منشوراتها العلمية بأنها عملت مع هذه البيانات. هذا دليل وثائقي: الشركات برؤوس أموال بمليارات الدولارات اعتمدت على نفس المصادر التي هي الآن عامة.

من أين تأتي هذه الموسيقى

تختلف مصادر مجموعات البيانات من حيث الحالة القانونية — وهنا يبدأ الجزء الأكثر أهمية:

  • Free Music Archive — مجاني للاستماع الشخصي، لكن الاستخدام التجاري وإنشاء الأعمال المشتقة محدود
  • يتم نشر بعض المقاطع بموجب تراخيص Creative Commons، لكن الشروط المحددة تختلف لكل مقطع
  • يتم حماية بعض المواد بموجب حق النشر القياسي — بدون استثناءات أو تحفظات
  • كانت جميع قواعس البيانات قابلة للوصول تقنياً للتنزيل بدون قيود
  • لم تكشف أي شركة ذكاء اصطناعي علناً عن التكوين الدقيق لمجموعات بيانات تدريب موسيقاها

الفجوة بين "متاح تقنياً للتنزيل" و"مسموح قانونياً للاستخدام في التدريب التجاري للذكاء الاصطناعي" — هذا هو بالضبط المجال القانوني الذي تتكشف فيه الدعاوى القضائية الآن في جميع أنحاء العالم.

أداة لأصحاب الحقوق

أطلق ذا أتلانتك محرك بحث عام عبر قواعد البيانات الأربع. يمكن لأي موسيقار أو منتج أو شركة تسجيلات أو دار نشر التحقق من اسمهم أو عناوين مقاطعهم والحصول على إجابة: هل كان هذا المحتوى جزءاً من مجموعة التدريب؟ هذا مهم من الناحية العملية. الدعاوى القضائية ضد شركات الذكاء الاصطناعي — Suno وUdio وOpenAI وStability AI وغيرها — يتم النظر فيها بالفعل في المحاكم، لكن المدعين لم يكن لديهم طريقة موثوقة لإثبات استخدام أعمال معينة.

قد تصبح قاعدة البيانات العامة الخاصة بـ ذا أتلانتك مادة إثبات في هذه القضايا. يستمر تحقيق ريسنر سلسلة من الكشفات في السنوات الأخيرة. أولاً، أصبح معروفاً الاستخدام الواسع للكتب بدون إذن (مجموعة البيانات Books3)، ثم — حول النصوص من الويب المفتوح (Common Crawl).

الآن جاء دور الموسيقى. المنطق واحد: كانت شركات الذكاء الاصطناعي تجمع كل شيء كان متاحاً تقنياً دون السؤال عن الحالة القانونية.

ما يعني هذا

تحويل منشور ذا أتلانتك النزاع حول حقوق النشر في الذكاء الاصطناعي من المجرد إلى المحدد: ها هي البيانات، ها هي الشركات، ها هي المقاطع. بالنسبة للموسيقيين، هذه هي الأداة الأولى للتحقق العام. بالنسبة لشركات الذكاء الاصطناعي — إشارة إلى أن عدم الشفافية فيما يتعلق ببيانات التدريب يصبح من الصعب بشكل متزايد الحفاظ عليها.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

ما رأيك؟
جارٍ تحميل التعليقات…