OpenAI Blog→ المصدر

شرحت OpenAI كيفية اكتشاف ChatGPT للتهديدات وحظر سيناريوهات العنف الخطيرة

فصلت OpenAI كيفية حماية المجتمع في ChatGPT. تجمع الشركة بين القيود على مستوى النموذج والكاشفات الآلية للإساءة والمراجعة اليدوية للمحادثات المميزة. إذا اكتشفت…

معالج بواسطة الذكاء الاصطناعي من OpenAI Blog؛ بتحرير Hamidun News
شرحت OpenAI كيفية اكتشاف ChatGPT للتهديدات وحظر سيناريوهات العنف الخطيرة
المصدر: OpenAI Blog. كولاج: Hamidun News.
◐ استمع للمقال

كشفت شركة OpenAI عن كيفية بناء أنظمة حماية المجتمع في ChatGPT: من القيود على مستوى النموذج إلى الكشف عن الأنماط الخطيرة وتصعيد الحالات العاجلة إلى سلطات الشرطة. تسعى الشركة إلى الحفاظ على فائدة الخدمة مع منع استخدامها للتهديدات والعنف وأشكال أخرى من الضرر الحقيقي.

حدود النموذج

يعتمد نهج OpenAI على Model Spec — مجموعة من المبادئ التي تجعل النموذج مفيداً وآمناً في نفس الوقت. يتم تدريب ChatGPT على التمييز بين الطلبات المحايدة والطلبات التي قد تكون خطيرة بشأن العنف: يمكن مناقشة الأحداث التاريخية والأخبار والوقاية وعلم النفس أو الحقائق العامة، لكن لا يمكن الحصول على تعليمات خطوة بخطوة وتكتيكات وتخطيط يسهل الضرر. المشكلة هي أن الحد الفاصل ليس واضحاً دائماً.

يمكن أن يكون السؤال نفسه موجهاً نحو البحث أو جزءاً من الاستعداد للهجوم، لذا تقوم OpenAI بضبط سلوك النموذج بشكل مستمر واختباره مع خبراء خارجيين. تؤكد الشركة أن الخطر ليس مرئياً دائماً في رسالة واحدة. أحياناً تظهر إشارة تحذير فقط من سلسلة طويلة من الردود أو محاولات متكررة لتجاوز القيود أو السياق العام للحوار.

لذلك، لا يتم بناء الأمان فقط حول منع كلمات معينة، بل أيضاً حول قدرة النموذج على ملاحظة العلامات الأكثر دقة للتصعيد. ينطبق نهج مماثل على المحادثات حول إيذاء النفس: الهدف من النظام ليس تمكين الأعمال الخطيرة، بل تقليل التوتر وتوجيه الأشخاص نحو المساعدة الحقيقية.

كيفية تحديد المخاطر

الرفضات من النموذج وحدها غير كافية، لذا تستخدم OpenAI طبقة منفصلة من المراقبة وإنفاذ القواعد فوق ChatGPT نفسه. تعتمد الشركة على سياسات الاستخدام الخاصة بها وتحظر بشكل صريح استخدام الخدمة للاستعداد للعنف أو التخويف أو الإرهاب أو تطوير الأسلحة أو الأنشطة غير القانونية أو تدمير الممتلكات أو تجاوز آليات الحماية. إذا رأى النظام أن مستخدماً يحاول تحويل روبوت الدردشة إلى أداة للضرر الحقيقي، فقد تكون الإجابة ليس فقط رفض الحوار بل أيضاً تقييد الوصول بالكامل إلى الخدمة.

  • المصنفات وأنماط التفكير للبحث عن الإشارات المريبة
  • مطابقة البصمات والقوائم السوداء وأنظمة المراقبة الآلية الأخرى
  • تحليل ليس فقط النص بل أيضاً سلوك الحساب عبر الزمن
  • المراجعة اليدوية للحوارات المعلمة من قبل متخصصين مدربين
  • حظر الحساب ومحاولات إنشاء ملفات جديدة بعد الحظر

تشير OpenAI إلى أن الأنظمة الآلية تعمل على نطاق واسع، لكن القرار النهائي في الحالات المعقدة يتخذ في السياق. يفحص المراجعون ليس فقط العبارة المحددة بل أيضاً الرسائل المجاورة والسجل السلوكي واحتمالية أن تكون انتهاكاً حقيقياً وليس إنذاراً كاذباً. بالنسبة للمستخدمين، هذا يعني شيئاً واحداً بسيطاً: أن تجاوز القيود من خلال سلسلة من الطلبات التي تبدو براءة يصبح أصعب لأن النظام يقيّم ليس فقط الرد الفردي بل النمط العام.

تصعيد الحالات المعقدة

تطبق OpenAI معظم التدابير مباشرة: تنبيهات وحظر وقيود على الحسابات ذات الصلة. لكن حالات معينة تتلقى تصعيداً منفصلاً. إذا أشارت المؤشرات إلى خطر جدي من الضرر غير المتصل بالإنترنت، تذهب الحالة إلى مراجعة متعمقة باستخدام معايير رسمية. تتضمن هذه العملية ليس فقط الفرق الداخلية بل أيضاً متخصصين في الصحة النفسية والمخاطر السلوكية. تؤكد OpenAI أن الشخص قد لا يذكر الهدف والطريقة والوقت مباشرة، لكن مجموعة من التلميحات قد تشير إلى تهديد محتمل وشيك. إذا خلصت الشركة إلى أن خطر العنف حقيقي وقريب زمنياً، فإنها تخطر السلطات المختصة.

بالتوازي، تطور OpenAI آليات دعم أكثر ليناً. يمتلك المراهقون بالفعل ميزات التحكم الأبوي: يمكن للآباء ربط حسابهم بحساب طفلهم وتعيين وضع آمن دون الوصول إلى المحادثات الفعلية. في حالات حادة نادرة، قد يتلقى الآباء إخطاراً كافياً للمساعدة. ستكون الخطوة التالية ميزة جهة اتصال موثوقة، التي ستسمح للمستخدمين البالغين بتعيين شخص مقدماً يمكن إرسال إشارة له إذا اعتقد النظام أنهم بحاجة إلى الدعم.

ماذا يعني هذا

تراهن OpenAI على الأمان متعدد المستويات: أولاً يقيد النموذج الردود الخطيرة، ثم تلتقط الأنظمة المنفصلة الأنماط المريبة، والحالات الأكثر خطورة يتعامل معها الأشخاص مع خيار التصعيد الخارجي. بالنسبة للمستخدمين والشركات، هذه إشارة إلى أن ChatGPT يتحول بشكل متزايد ليس فقط إلى واجهة دردشة بل إلى بنية تحتية مع قواعد ومراقبة وإجراءات استجابة مشابهة لتلك التي ظلت تعمل منذ فترة طويلة على المنصات الاجتماعية والاتصالات الكبرى.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…