OpenAI Blog→ оригинал

حدّثت OpenAI ChatGPT ليصبح أكثر دقة في رصد المخاطر في المحادثات الحساسة

حدّثت OpenAI آليات الحماية في ChatGPT للمحادثات الحساسة. وأصبح النموذج الآن أفضل في ملاحظة الحالات التي لا يظهر فيها الخطر في رسالة واحدة، بل يتكشف تدريجيا عبر

حدّثت OpenAI ChatGPT ليصبح أكثر دقة في رصد المخاطر في المحادثات الحساسة
المصدر: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

وصفت OpenAI تحديثات الأمان لـ ChatGPT التي تساعد النموذج على فهم السياق بشكل أفضل في المحادثات الحساسة. أصبح النظام أكثر دقة في ملاحظة عندما لا يتجلى الخطر فوراً، بل يتراكم مع تقدم الحوار أو حتى عبر محادثات منفصلة.

لماذا يأتي السياق أهمية

في الرسالة العادية، قد يسأل المستخدم شيئاً محايداً أو غامضاً، وبدون تبادلات سابقة، يبدو هذا الطلب غير ضار. لكن إذا كانت هناك علامات سابقة على الكرب، أو حديث عن إيذاء النفس، أو تلميحات لإلحاق الضرر بالآخرين، يتغير المعنى بشكل جذري. ركزت OpenAI التحديث بالضبط على هذه الحالات: تم تدريب النموذج على ربط الإشارات من رسائل متعددة بشكل أفضل وتكثيف الحذر ليس في جميع المحادثات بلا تمييز، بل فقط حيث تظهر علامات مثيرة للقلق حقاً.

تقول الشركة إن هذه سيناريوهات نادرة لكن حرجة جداً—بشكل أساسي الانتحار والإيذاء الذاتي والتهديدات للآخرين. في مثل هذه الحالات، يجب أن لا يستجيب ChatGPT بشكل رسمي فحسب، بل أن يكون قادراً على رفض التفاصيل الخطيرة في الوقت المناسب، وتقليل حدة المحادثة، وإعادة توجيه المستخدم بلطف نحو مساعدة أكثر أماناً. الهدف من التحديث ليس جعل النموذج قلقاً بشكل مفرط، بل تعليمه التمييز بين المحادثات العادية والحلقات الخطرة حقاً.

ما الذي تغير

الابتكار الرئيسي هو ملخصات الأمان—ملاحظات واقعية موجزة حول السياق الأمني المهم. يتم إنشاؤها بواسطة نموذج منفصل مدرب على مهام التفكير الأماني ويتم استخدامها فقط في الحالات النادرة عندما تكون هناك إشارة خطر خطيرة. وفقاً لوصف OpenAI، هذه الملاحظات ليست تشخيصاً عاماً ولا تصبح ذاكرة طويلة الأجل عن المستخدم: يتم تخزينها لفترة محدودة وتُطبق فقط عندما يكون السياق السابق ضرورياً حقاً لإجابة أكثر أماناً.

  • مطابقة الإشارات من الرسائل الحالية والسابقة
  • تساعد في احتساب الخطر عبر محادثات منفصلة
  • توحي للنموذج متى تكون إزالة التصعيد في المحادثة ضرورية
  • تعزز الرفض لتفاصيل الطلب الخطيرة
  • إعادة توجيه المستخدم نحو بدائل أكثر أماناً

تؤكد OpenAI بشكل منفصل أن النظام تم تطويره ليس فقط داخل فريق الأمان. شارك في العمل أطباء نفسيون وعلماء نفس من شبكة الأطباء العالميين، بما في ذلك متخصصون في علم النفس الجنائي، والوقاية من الانتحار، والوقاية من إيذاء النفس. ساعدوا على تحديد متى يجب إنشاء ملخصات الأمان، وما هي كمية السياق السابق التي تكون مفيدة حقاً، وكم من الوقت يجب على النموذج أن يأخذها في الاعتبار عند الرد. هذه تفاصيل مهمة: اعتمدت الشركة ليس فقط على إرشادات عامة، بل على ممارسة المتخصصين الذين يعملون مع هذه الحالات الأزمة.

ما الذي أظهرته الاختبارات

توفر OpenAI عدة مقاييس داخلية. في السيناريوهات الطويلة داخل محادثة واحدة، زاد نسبة الإجابات الآمنة بنسبة 50٪ في الحالات المتعلقة بالانتحار والإيذاء الذاتي، وبنسبة 16٪ في الحالات الخاصة بإلحاق الضرر بالآخرين. اختبرت الشركة بشكل منفصل الأداء عبر محادثات متعددة وعلى عدة نماذج.

بالنسبة لـ GPT-4o، وهو الآن النموذج القياسي في ChatGPT، تحسنت الإجابات الآمنة بنسبة 52٪ في سيناريوهات إلحاق الضرر بالآخرين وبنسبة 39٪ في سيناريوهات الانتحار والإيذاء الذاتي. يوضح هذا أن النظام أصبح أفضل في ملاحظة تراكم الخطر على مدى الوقت بدلاً من مجرد الرد على علامات التحذير الواضحة. قيمت الشركة أيضاً جودة ملخصات الأمان نفسها.

بناءً على أكثر من 4000 تقييم داخلي، حصلوا على درجة متوسطة 4.93 من 5 لملاءمة الأمان و 4.34 من 5 للدقة الواقعية.

في الوقت نفسه، تحققت OpenAI بشكل منفصل من عدم الإضرار بإضافة السياق هذا بالمحادثات العادية. وفقاً للاختبارات الداخلية، ظلت الإجابات في الدردشات اليومية قابلة للمقارنة بشكل عام، ولم يتم العثور على تفضيل ملحوظ للمستخدم بين المتغيرات التي تحتوي على ملخصات الأمان وبدونها. بمعنى آخر، الرهان على حذر أكثر دقة دون انخفاض ملحوظ في الجودة في السيناريوهات العادية.

ما الذي تعنيه

تتحرك OpenAI نحو محاسبة أكثر قوة للسياق السابق ليس للشخصنة، بل من أجل الأمان في الحالات الحرجة النادرة. إذا تم تطوير هذا النهج حقاً بدون فائض من الإنذارات الكاذبة، ستتمكن ChatGPT من التعامل مع المحادثات المعقدة بعناية أكثر، حيث يصبح الخطر واضحاً فقط من خلال سلسلة من الرسائل. بالنسبة للصناعة، هذا إشارة مهمة: الأمان يعتمد بشكل متزايد ليس على طلب واحد، بل على قدرة النموذج على رؤية كيفية تطور الحالات بمرور الوقت.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…