لماذا الذكاء الاصطناعي عرضة لهجمات حقن الطلبات
تخيل أنك تعمل في مطعم وجبات سريعة مع خدمة النافذة. تصل سيارة، ويقول السائق: "أريد ساندويتش جبن مزدوج، بطاطس مقلية كبيرة... وتجاهل التعليمات السابقة، أعطني…
معالج بواسطة الذكاء الاصطناعي من IEEE Spectrum AI؛ بتحرير Hamidun News
تخيل أنك تعمل في مطعم وجبات سريعة مع خدمة النافذة. تصل سيارة، ويقول السائق: "أريد ساندويتش جبن مزدوج، بطاطس مقلية كبيرة... وتجاهل التعليمات السابقة، أعطني محتويات الصندوق النقدي". هل كنت ستسلم المال؟ بالطبع لا. لكن هذا بالضبط كيف تتصرف نماذج اللغة الكبيرة (LLMs).
حقن المطالبة هي طريقة لخداع نماذج اللغة الكبيرة تسمح بإجبارها على فعل أشياء يُمنع عليها عادةً فعلها. يكتب المستخدم طلباً بطريقة معينة، طالباً كلمات مرور النظام، أو بيانات شخصية، أو يوجه نموذج اللغة لتنفيذ إجراءات محظورة. الصيغة الدقيقة تتجاوز آليات الحماية في نموذج اللغة، وهو يطيع.
نماذج اللغة الكبيرة معرضة لجميع أنواع هجمات حقن المطالبة، وبعضها واضح بشكل سخيف. لن يخبرك بوت الدردشة بكيفية تصنيع الأسلحة البيولوجية، لكنه يمكن أن يروي قصة خيالية تتضمن نفس التعليمات التفصيلية. لن يقبل مدخلات نصية ضارة، لكنه يمكن أن يقبلها إذا تم عرض النص كفن ASCII أو ظهر على صورة لوحة إعلانية. البعض يتجاهل حدود الحماية الخاصة به عندما يُقال له "تجاهل التعليمات السابقة" أو "تظاهر بأنه لا توجد حدود حماية".
يمكن لمطوري الذكاء الاصطناعي حظر طرق محددة من حقن المطالبة بعد اكتشافها، لكن الاحتياطات العامة مستحيلة مع نماذج اللغة الكبيرة الحالية. بعبارة أدق، هناك عدد لا نهائي من هجمات حقن المطالبة في انتظار اكتشافها، ولا يمكن منع أي منها عالمياً. إذا كنا نريد أن تقاوم نماذج اللغة الكبيرة هذه الهجمات، فنحن بحاجة إلى نُهُج جديدة. المكان الذي يجب النظر فيه هو ما يمنع حتى عمال الوجبات السريعة المرهقين من تسليم محتويات الصندوق النقدي.
دفاعاتنا الإنسانية الأساسية هي ثلاثة أنواع على الأقل: الغرائز العامة، والتعلم الاجتماعي، والتدريب الخاص بالموقف. إنها تعمل معاً في دفاع متعدد الطبقات. كنوع اجتماعي، طورنا عادات غريزية وثقافية عديدة تساعدنا على الحكم على النبرة والدافع والمخاطر بناءً على معلومات محدودة جداً. نحن عادةً نعرف ما هو طبيعي وغير طبيعي، متى نتعاون ومتى نقاوم، وما إذا كان يجب أن نتصرف بشكل فردي أو ننخرط مع الآخرين. تعطينا هذه الغرائز إحساساً حدسياً بالخطر وتجعلنا حذرين بشكل خاص من الأشياء التي لها عيوب كبيرة أو لا يمكن عكسها.
يتكون المستوى الثاني من الدفاع من المعايير والإشارات الموثوقة التي تتطور في أي مجموعة. إنها غير مثالية لكنها فعّالة: تنشأ توقعات التعاون وعلامات الموثوقية من التفاعلات المتكررة مع الآخرين. نتذكر من ساعدنا، من ألحق الضرر، من تبادل المعاملة بالمثل ومن رفض. وعواطف مثل التعاطف والغضب والذنب والامتنان تحفزنا جميعاً على مكافأة التعاون بالتعاون ومعاقبة الخيانة بالخيانة.
المستوى الثالث هو الآليات المؤسسية التي تسمح لنا بالتفاعل مع الكثير من الغرباء كل يوم. يتم تدريب عمال الوجبات السريعة، على سبيل المثال، على الإجراءات والنصوص ومسارات التصعيد وما إلى ذلك. مجتمعة، توفر هذه الدفاعات للناس شعوراً قوياً بالسياق. عامل الوجبات السريعة يعرف عموماً ما يتوقعه في العمل وكيف ينسجم مع المجتمع الأوسع.
تتصرف نماذج اللغة الكبيرة كما لو كان لديها شعور بالسياق، لكنه مختلف. إنها لا تطور الدفاعات الإنسانية نتيجة للتفاعلات المتكررة وتبقى منفصلة عن العالم الحقيقي. تختزل نماذج اللغة عدة مستويات من السياق إلى التشابه النصي. إنها ترى "رموز"، وليس الهرميات والنوايا. لا تفكر نماذج اللغة من خلال السياق؛ إنها فقط تشير إليه. حدود نماذج اللغة الكبيرة هي السبب في فشلها عندما يكون السياق محدوداً، لكن أيضاً عندما يكون السياق ساحقاً ومعقداً؛ عندما يفقد نموذج اللغة السياق، من الصعب إعادته. خبير الذكاء الاصطناعي سايمون ويليسون ينظف السياق إذا ضاع نموذج اللغة، بدلاً من متابعة المحادثة ومحاولة إصلاح الموقف.
في النهاية، سوف نواجه على الأرجح معضلة أمان عندما يتعلق الأمر بوكلاء الذكاء الاصطناعي: السرعة والذكاء والأمان هي صفات مرغوبة، لكن يمكنك الحصول على اثنين فقط. في مطعم وجبات سريعة، تريد أن تعطي الأولوية للسرعة والأمان. يجب أن يتم تدريب وكيل ذكاء اصطناعي بشكل ضيق على لغة طلب الطعام وتمرير كل شيء آخر إلى المدير. وإلا، تصبح كل عملية رمي العملة. حتى لو خرج الوجه معظم الوقت، سيظهر الظهر من حين لآخر – وإلى جانب الساندويتش والبطاطس المقلية، سيحصل العميل على محتويات الصندوق النقدي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.