Habr AI→ المصدر

لاحقة واحدة تكسر أي نموذج لغة: اكتشف الباحثون متجه رفض عالمياً موحداً

اكتشف الباحثون أن طرقاً مختلفة لتجاوز دفاعات نماذج اللغة الكبيرة — GCG (يضيف لاحقات عشوائية) و AutoDAN (يضيف نصاً متماسكاً) — تستغل نقطة ضعف واحدة. يعتمد…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
لاحقة واحدة تكسر أي نموذج لغة: اكتشف الباحثون متجه رفض عالمياً موحداً
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

يوضح الباحثون: على الرغم من التنوع الظاهري للهجمات الخصومية على نماذج اللغة، فإنها جميعاً تستغل نقطة ضعف هيكلية واحدة — متجه موحد من "اتجاه الرفض" في فضاء التفعيلات. يمكن لاحقة مختارة بعناية واحدة فقط أن تفتح قفل أي نموذج، حتى لو لم يسبق للهجوم أن رآه من قبل.

هجومان، نقطة ضعف واحدة

الطرق الأكثر شهرة للالتفاف حول دفاعات LLM — GCG (Greedy Coordinate Gradient) و AutoDAN — تعمل وفقاً لمبادئ مختلفة بشكل أساسي. يضيف GCG لاحقة من الرموز المُحسَّنة عشوائياً إلى طلب ضار: ظاهرياً يبدو وكأنه هراء، لكن السلسلة تُضبط من خلال الانحدار الشامل بحيث يتحرك النموذج نحو تنفيذ الطلب. يعمل AutoDAN بطريقة مختلفة — فهو ينشئ نصاً قابلاً للقراءة وصحيحاً من الناحية النحوية كإضافة من خلال البحث التطوري أو نموذج لغة مساعد. ضجيج مقابل المعنى، فوضى الرموز مقابل النثر المتماسك. ومع ذلك، تحت الغطاء، يقوم كلا الأسلوبين بنفس الإجراء في نفس المكان.

  • يُحسّن GCG الرموز مباشرة من خلال التدرج في دالة الخسارة
  • يستخدم AutoDAN البحث التطوري أو LLM مساعد للجيل
  • يضيف كلاهما لاحقة إلى الطلب الضار الأصلي
  • ينتقل كلاهما بنفس القدر إلى النماذج التي لم يرها الهجوم من قبل

ما هو اتجاه الرفض

عندما يرفض نموذج اللغة طلباً ضاراً، فإنه ليس عمل نظام معقد ومتفرع من المرشحات الموضوعية. في فضاء التفعيلات الداخلية للنموذج، يوجد متجه واحد — "اتجاه الرفض". عندما تُسقط تمثيلات الطلب على طوله — يرفض النموذج. عندما تتحرك التفعيلات في الاتجاه المعاكس — ينفذ النموذج الطلب. من المهم أن نفهم أن هذا ليس استعارة، بل كائن رياضي ملموس. يجد الباحثون متجه الرفض باستخدام طريقة فرق متوسطات التفعيلات: يقارنون كيف يمثل النموذج طلباً "عادياً" و "ضاراً"، والفرق بين هذه المتوسطات هو اتجاه الرفض.

لم تنشئ سنوات من التدريب مع ردود الفعل على تفضيلات الإنسان (RLHF) دفاعاً متعدد الطبقات. لقد ركزوا كل "الإرادة على الرفض" على محور هندسي واحد من فضاء التفعيلات. أن تجد هجمات مستقلة مختلفة، طورتها فرق مختلفة، في النهاية نفس الكائن يتحدث بحد ذاته عن الطبيعة الهيكلية للظاهرة.

"كل متانة الأمان تعتمد على متجه واحد. هذا ليس خللاً في تنفيذ معين —

إنها خاصية هيكلية لكيفية عمل المحاذاة من خلال RLHF."

لماذا العمومية للهجمات ليست مصادفة

إذا كانت لاحقة تحرك التفعيلات بعيداً عن اتجاه الرفض، فإنها تعمل ضد أي نموذج بتدريب مشابه — حتى لو لم يسبق للمهاجم أن رآه. هذا يفسر ظاهرة تمت ملاحظتها منذ فترة طويلة: اللواحق الموجودة في النماذج المفتوحة (Llama، Mistral) تتجاوز الأنظمة التجارية المغلقة. كانت اللواحق من GPT-3.5 تعمل ضد GPT-4. السبب ليس في تسرب الأوزان أو البيانات المتطابقة — بل في أن جميع نماذج RLHF الحديثة تشفر الرفض في كائن هندسي مشابه.

  • لا يحتاج المهاجم إلى وصول مباشر إلى النموذج المستهدف — أي وسيط بتدريب مشابه كافٍ
  • يمكن أن تكون اللاحقة قمامة غير مقروءة أو نص متماسك — كلا الخيارين يضرب نفس النقطة
  • الهجمات العامة على النماذج المفتوحة تصبح تلقائياً تهديداً للأنظمة الملكية

ماذا يعني هذا

إذا كان كل الدفاع ضد المخرجات الضارة يعتمد على كائن هندسي واحد في الفضاء الكامن، فإن السؤال ينشأ: هل من الكافي "إصلاح" هذا المتجه أثناء الضبط الدقيق — أم أنه يتطلب بنية تدريب مختلفة بشكل أساسي؟ يقترح بعض الباحثين الإزالة الجراحية للاتجاه من النموذج في وقت الاستدلال، لكن هذا يتدهور الجودة الكلية. أن تتقارب هجمات مستقلة من أنواع مختلفة نحو اتجاه الرفض تتحدث عن خاصية هيكلية لنماذج اللغة الحديثة — وهذه هي الحدود التي لم تجد أمان الذكاء الاصطناعي إجابة عليها بعد.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…