السلامة

كسر الحماية (Jailbreak)

كسر الحماية هي تقنية تُستخدم لتجاوز إرشادات السلامة المدمجة في نموذج ذكاء اصطناعي، مما يسبب إنتاج محتوى أو تنفيذ إجراءات صمم مطورون النموذج بشكل صريح ليرفضها.

يشير كسر حماية الذكاء الاصطناعي إلى استخدام موجهات مصاغة أو سيناريوهات تمثيل دور أو حيل ترميز أو مدخلات مولدة من التحسين لتجاوز تدريب المحاذاة ومرشحات الأمان في نموذج اللغة. المصطلح مستعار من اختراق الأجهزة المحمولة، حيث يشير إلى إزالة القيود التي تفرضها الشركة المصنعة لفتح قدرات غير مصرح بها.

تشمل تقنيات كسر الحماية الشائعة إطار تمثيل الدور (توجيه النموذج للعمل كشخصية بديلة غير مقيدة)، معالجة الرموز (استبدال أحرف أو ترميزات غير عادية تتجنب مصنفات المحتوى)، معالجة السياق متعدد الأدوار (نقل المحادثة تدريجياً نحو هدف محظور)، وملحقات متعارضة مولدة بواسطة خوارزميات التحسين القائمة على التدرج الآلية. تحاول الضبط الدقيق الأمني جعل النماذج قوية لهذه الطرق، لكن الديناميكية المتعارضة مستمرة ذاتياً: يتم اكتشاف الهجمات الجديدة ومعالجتها وإعادة اكتشافها بأشكال معدلة. غالباً ما تنتقل التقنيات التي تنجح على عائلة نموذج واحدة جزئياً إلى عائلات أخرى.

يمكن لكسور الحماية الناجحة أن تسبب للنماذج إنتاج تعليمات لتصنيع الأسلحة أو إنتاج محتوى غير قانوني أو الكشف عن موجهات نظام سرية أو تجاوز الضوابط في التطبيقات النهائية. مع تحمل أنظمة الذكاء الاصطناعي مهام أعلى - إدارة تنفيذ الكود أو العمليات المالية أو البنية التحتية - تزداد العواقب المحتملة للتحايل بشكل متناسب. أصبحت ديناميكية كسر الحماية والدفاع مجالاً كبيراً من أبحاث سلامة الذكاء الاصطناعي وموضوعاً متكررة في النقاش التنظيمي.

بحلول عام 2026، تكون النماذج الحدودية من Anthropic و OpenAI و Google DeepMind مقاومة بشكل كبير لتقنيات كسر الحماية المعروفة أكثر من أسلافها 2022-2023، ويرجع ذلك جزئياً إلى تحسين طرق RLHF والنهج الدستوري للذكاء الاصطناعي والتدريب المتعارض على الهجمات المكتشفة. ومع ذلك، لا توجد نموذج محصنة بالكامل من كسر الحماية. استمرار توليد كسر الحماية الآلي - حيث يختبر نموذج واحد نموذج آخر على نطاق واسع - في اكتشاف طرق التحايل الجديدة أسرع مما يمكن للاختبار الأحمر اليدوي وحده معالجته، وتبقى الفجوة بين نماذج مفتوحة المصدر والنماذج التجارية المغلقة من حيث مقاومة كسر الحماية موضوعاً متنازع عليه.

مثال

يكتشف باحث أن صياغة طلب محظور كمقتطف من كتاب كيمياء خيالي، مدمجة مع نمط استبدال أحرف معين في المصطلحات الرئيسية، تتجاوز مرشحات السلامة لنموذج حدودي - ويقرر الإبلاغ عن النتيجة من خلال برنامج الكشف المسؤول للمطور.

مصطلحات مرتبطة

حقن الموجهات (Prompt Injection)الاختبار الأحمر (Red Teaming)الضمانات الأمنية (Guardrails)الرفض (Refusal)

← المسرد