Habr AI→ المصدر

Project Panama: Anthropic تضحي بملايين الكتب لتدريب Claude

تخيل مستودعاً ضخماً مليئاً بحزم من الكتب. لكن هذا ليس مكتبة ولا أرشيفاً هادئاً. هنا لا يقرأون — هنا يشرحون. أشخاص في ملابس الحماية يقطعون بحذر ظهور الكتب…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
Project Panama: Anthropic تضحي بملايين الكتب لتدريب Claude
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تخيل مستودعاً ضخماً مليئاً بحزم من الكتب. لكن هذا ليس مكتبة ولا أرشيفاً هادئاً. هنا لا يقرأون — هنا يشرحون. أشخاص في ملابس الحماية يقطعون بحذر ظهور الكتب الجديدة تماماً، محولين الأغلفة إلى أكوام من الأوراق المتفرقة التي تختفي بعد ذلك في أعماق الماسحات الضوئية عالية السرعة. هذا ليس مشهداً من حكاية ديستوبيا راي برادبري، بل هو العمل اليومي لقسم سري في شركة Anthropic. حصل المشروع على الاسم الرمزي Project Panama، وقد طفت تفاصيله للسطح للتو في الأرشيفات القضائية، مما جعل الصناعة ترتعش قليلاً أمام حجم ما يحدث.

لقد بنت Anthropic لفترة طويلة صورة تصورها كبديل "أخلاقي" لـ OpenAI. بينما كان سام ألتمان يسحب الإنترنت بقوة، كان منشئو Claude يتحدثون عن الأمان والمسؤولية. ومع ذلك، تبين أنه عندما يتعلق الأمر بنقص البيانات عالية الجودة، فإن الأخلاق تفسح الطريق أمام الطاحونة الصناعية. كشفت الوثائق القضائية أنه في أوائل عام 2024، أطلقت إدارة الشركة الناشئة خطة طموحة لـ "المسح الضوئي الدمر لجميع كتب العالم". تبدو الصيغة مشؤومة، لكن من الناحية التقنية فهي مبررة: للمسح السريع بدون تشويه، يجب حرفياً تدمير الكتاب، وتحويله إلى مجموعة من الصفحات المسطحة.

لماذا هذه التعقيدات عندما توجد نسخ رقمية؟ الإجابة تكمن في الجودة والحقوق. المكتبات الرقمية القانونية مكلفة وتحمى بموجب رخص صارمة، بينما المحفوظات القرصنة مثل Shadow Libraries غالباً ما تحتوي على أخطاء التعرف على الأحرف الضوئي. لتدريب نماذج بمستوى Claude 3.5 أو Claude 4 المستقبلي، تحتاج إلى معرفة نظيفة ومنظمة. قررت Anthropic أنه من الأسهل والأرخص شراء ملايين النسخ الفيزيائية، وتحويلها إلى غبار، والحصول على نسخ رقمية مثالية، بدلاً من التفاوض مع كل صاحب حقوق على حدة. كان ميزانية العملية عشرات ملايين الدولارات — مبلغ مماثل لتكلفة شراء شرائح H100.

يسلط هذا الموقف الضوء على المشكلة الرئيسية في صناعة الذكاء الاصطناعي الحديثة: "جدار البيانات" ليس أسطورة، بل واقع. لقد أطعمت البشرية بالفعل الشبكات العصبية ما يقرب من كل موقع Reddit وويكيبيديا والأرشيفات الصحفية الرقمية. لكن شهية النماذج تنمو بشكل أسي. إذا كنا في السابق نتحدث عن كيفية استبدال الذكاء الاصطناعي للكتاب، فالآن نرى كيف يلتهم الذكاء الاصطناعي حرفياً إرثهم المادي. المفارقة في الموقف أن شركة ناشئة تقدّر بمليارات الدولارات تضطر للانخراط في خدمات الورق الهدر للحصول على ميزة بنسبة بضعة نقاط مئوية في دقة روبوت الدردشة.

يتم شرح سرية Project Panama ببساطة: يبدو فظيعاً من وجهة نظر العلاقات العامة. من الصعب بيع الجمهور فكرة "الذكاء الاصطناعي الآمن" المبني على أنقاض الكتب المدمرة. آمل محامو Anthropic على الأرجح أن الملكية المادية لكتاب ستعطيهم بعض الثغرات في قانون "الاستخدام العادل". كأن نقول، اشترينا الكتاب، لنا الحق في قراءته، حتى لو كان "القارئ" خوارزمية وتتطلب عملية القراءة تدمير الوسط. ومع ذلك، من غير المرجح أن تكون المحاكم ملائمة جداً للنسخ الصناعي على نطاق واسع.

ماذا يعني هذا بالنسبة لنا؟ دخلنا عصراً حيث تصبح المعلومات في العالم المادي أكثر قيمة من الغبار الرقمي. إذا كنا في السابق ننقل الكتب رقمياً للحفاظ عليها للأجيال القادمة، فنحن الآن نفعل ذلك لإطعام "صندوق أسود" سيعطينا ملخصاً في دردشة. هذا تحول جذري في ثقافة استهلاك المعرفة. قد نواجه قريباً نقصاً في الطبعات النادرة ببساطة لأن وحيداً ذكاء اصطناعي آخر قرر شراء النسخة كاملة لتدريب "آلته اللغوية" الجديدة.

الخلاصة: أظهرت Anthropic أنه في معركة البيانات، لا يتم أخذ أسرى. هل نحن مستعدون لحقيقة أن ذكاء المستقبل سيتم بناؤه على رماد الكتب المحروقة?

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…