تقطير نماذج اللغة: هل يمكن إثبات سرقة المعرفة عبر الدردشة
على خلفية اتهامات Anthropic لمطورين صينيين بتقطير Claude، ظهرت دراسة لافتة. واختبر الباحث ما إذا كان بالإمكان، عبر دردشة عادية مع نموذج لغة، تحديد ما إذا…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
في عالم نماذج اللغات الكبيرة، يتفاقم نزاع يشبه بطبيعته حروب براءات الاختراع في الصيدلة—إلا أنه بدلاً من الجزيئات، تُسرق المعرفة المعبأة في مليارات المعاملات. دراسة حديثة نُشرت على هابر تطرح سؤالاً استفزازياً: هل يمكن، ببساطة من خلال التحدث مع نموذج لغة في محادثة، تحديد أنه تم تدريبه باستخدام التقطير على بيانات مخرجات نموذج آخر؟ يعتقد المؤلف أن الإجابة بنعم. وإذا كان محقاً، فإن هذا يغير قواعد اللعبة بالنسبة لكامل الصناعة.
لفهم السياق، يجب العودة إلى الفضيحة التي اندلعت قبل عدة أشهر. اتهمت شركة Anthropic—مبتكرو Claude—علناً المطورين الصينيين بتقطير نموذجهم بشكل منهجي. جوهر الاتهامات كان أن المهندسين من الصين استخدموا بشكل كبير جداً واجهة برمجية (API) Claude، وجمعوا ردودها لتدريب نماذجهم الخاصة. أكدت Anthropic أنها اكتشفت ذلك من خلال مراقبة الحسابات: بتحليل أنماط الطلبات والسجل التاريخي للاستخدام والروابط بين الحسابات والشركات الصينية. تم بناء قاعدة البيانات الثبوتية على المستوى البنيوي—من أرسل، متى، وكم عدد الطلبات التي تم إرسالها.
لكن مؤلف الدراسة اتخذ مساراً مختلفاً تماماً. تساءل: ماذا لو كانت الأدلة مخفية ليس في سجلات الخادم، بل في النموذج نفسه؟ التقطير هو عملية يتم فيها تدريب نموذج الطالب الصغير على إعادة إنتاج سلوك نموذج المعلم الكبير. في الأساس، هي ضغط المعرفة: بدلاً من تدريب نموذج على تيرابايتات من البيانات الخام، يزود المطور به ردود جاهزة من نظام أكثر قوة. لا يتبنى نموذج الطالب الحقائق فحسب، بل أيضاً الخصائص الأسلوبية والسلاسل المنطقية والتعبيرات المميزة وحتى أخطاء المعلم. هذه الآثار بالذات—نوع من "بصمات الأصابع"—حاول الباحث اكتشافها من خلال ما يسمى بالإبلاغ الذاتي للنموذج.
تبدو المنهجية أنيقة في بساطتها. إذا تم تدريب نموذج على ردود Claude، فقد يعيد بشكل لاإرادي إنتاج أنماط مميزة لـ Claude: صيغ محددة للرفض، هيكل منطق قابل للتعرف عليه، أطر أخلاقية معينة تدمجها Anthropic في منتجها. هذا يشبه الطريقة التي يستطيع بها عالم اللغويات تحديد الإقليم الذي نشأ فيه الشخص من خلال خصائص كلامه—باستثناء أننا هنا نتحدث عن "إقليم التدريب" للشبكة العصبية. يؤكد مؤلف الدراسة أنه عثر على مثل هذه المؤشرات، إذا أنه يضع تحذيراً مهماً: النتائج ذات طابع أولي ولا يمكن أن تكون بمثابة دليل قانوني.
هذا التحذير ليس مجرد لطف روتيني، بل انعكاس لمشكلة أساسية. تظل نماذج اللغة، إلى حد كبير، صناديق سوداء حتى بالنسبة لمبتكريها. لا يستطيع أحد التأكيد بيقين مطلق على سبب قيام النموذج بإعطاء هذا الرد بالضبط. قد يكون تطابق الأنماط الأسلوبية نتيجة للتقطير، أو قد يكون نتيجة التدريب على بيانات مشابهة من مصادر مفتوحة. سيتشابه نموذجان تم تدريبهما على نفس المقالات العلمية والكتب بحتمية، وهذا لا علاقة له بسرقة الملكية الفكرية.
مع ذلك، فإن اتجاه البحث نفسه واعد جداً. تحتاج الصناعة بشدة إلى أدوات للتحقق من أصل النماذج. اليوم، السوق مغمور بنماذج مفتوحة المصدر، يتعامل الكثير منها بشكل مريب جيد مع المهام التي تتطلب نظرياً موارد حسابية أكبر بكثير. إذا تم إتقان طرق "الخبرة اللغوية" للشبكات العصبية، فقد يصبح هذا أساساً لاتجاه جديد—الطب الشرعي للذكاء الاصطناعي، علم الجريمة الرقمي في عالم الذكاء الاصطناعي.
بالنسبة لمختبرات كبرى مثل OpenAI و Anthropic و Google DeepMind، الرهانات ضخمة. يكلف تدريب النماذج الحدودية مئات ملايين الدولارات، وإذا تمكن المنافسون من تحقيق جودة مماثلة بجزء من هذه التكاليف من خلال التقطير، فإن النموذج الاقتصادي بأكمله ينهار. لا عجب في أن اتفاقيات الاستخدام لدى معظم المزودين الكبار تحتوي بالفعل على حظر صريح على استخدام بيانات المخرجات لتدريب النماذج المتنافسة. لكن الحظر بدون آلية للكشف عن الانتهاكات مجرد كلمات على الورق.
تشير الدراسة، بالرغم من طبيعتها الأولية، إلى مستقبل حيث ستحمل النماذج آثاراً لا تُمحى لأصلها. ربما مع مرور الوقت، سيبدأ المطورون في دمج علامات مائية مخفية عن قصد في نماذجهم—أنماط فريدة من الردود لا يمكن إزالتها من خلال التقطير. بعض الشركات تجرب بالفعل تقنيات كهذه. إذا أصبحت هذه الطرق موثوقة، سيحصل عالم تطوير الذكاء الاصطناعي على شيء ينقصه بشدة الآن: آلية المساءلة. في الوقت الحالي، الصناعة توازن على خط رفيع بين تبادل المعرفة المفتوح وحماية الاستثمارات—وهذا الخط يصبح أرق مع كل شهر يمر.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.