OpenAI Blog→ оригинал

شرحت OpenAI ما هي البيانات التي يستخدمها ChatGPT للتدريب وكيف تحمي الخصوصية

شرحت OpenAI بالتفصيل كيف يستخدم ChatGPT البيانات في التدريب وما هي أدوات التحكم في الخصوصية المتاحة للمستخدمين. وتقول الشركة إنها تطبق Privacy Filter لإخفاء الم

شرحت OpenAI ما هي البيانات التي يستخدمها ChatGPT للتدريب وكيف تحمي الخصوصية
المصدر: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

في السادس من مايو، نشرت OpenAI شرحًا مفصلاً حول كيف يكتسب ChatGPT المعرفة بالعالم مع محاولة عدم إشراك بيانات شخصية غير ضرورية في التدريب. وصفت الشركة في الوقت نفسه مصادر البيانات والمرشحات الداخلية والإعدادات التي يمكن للمستخدمين استخدامها للحد من استخدام محادثاتهم.

من أين تأتي البيانات

في منشور، تقسم OpenAI مصادر البيانات إلى عدة فئات. لتدريب النماذج التي تشكل أساس ChatGPT، تستخدم الشركة معلومات متاحة للعموم على الإنترنت وبيانات من الشراكات، بالإضافة إلى المواد التي قدمها أو أنشأها المستخدمون والمقاولون والباحثون. الفكرة هي أن يتعلم النموذج الأنماط العامة والحقائق والروابط بين المواضيع، بدلاً من حفظ القصص الشخصية الفردية.

وفقًا لـ OpenAI، هي بالفعل هذه المجموعة الواسعة من المصادر التي تساعد في جعل الإجابات أكثر فائدة واستقرارًا وأماناً. توضح الشركة بشكل منفصل تفصيلة مهمة: إذا كان يتعلق الأمر بمحتوى من الإنترنت المفتوح، فيتم استخدام المواد الموجودة في الوصول الحر والمفتوح فقط للتدريب. تقدم OpenAI المنشورات العامة والمدونات والمناقشات على المنتديات المفتوحة كأمثلة.

هذا لا يلغي الأسئلة حول حدود الاستخدام المقبول للبيانات المفتوحة، لكنه يوضح أن الشركة تحاول رسميًا وضع قاعدة: ليس كل شيء على الإنترنت يُعتبر تلقائيًا مناسبًا للتدريب إذا كان الوصول إلى هذا المحتوى محدودًا.

كيف يزيلون المعلومات الشخصية

قبل دخول البيانات مرحلة التدريب، تمررها OpenAI من خلال مجموعة من آليات الحماية المصممة لتقليل حجم المعلومات الشخصية في مجموعات البيانات. الرئيسية منها هي Privacy Filter، وهي أداة للبحث عن المعلومات الشخصية وإخفاؤها في النص. وفقًا للشركة، يتم تطبيق هذا المرشح في عدة مراحل من العملية، بما في ذلك مجموعات البيانات العامة والمحادثات بين المستخدمين إذا قام الشخص بتفعيل إعداد Improve the model for everyone.

تؤكد OpenAI أيضًا أنها جعلت Privacy Filter مجانيًا للمطورين الآخرين بحيث يمكن استخدام هذا النهج خارج ChatGPT. توجد طبقة حماية منفصلة لا تتعلق بالتدريب، بل بردود ChatGPT نفسه. يجب أن ترفض الخدمة الطلبات على توفير معلومات خاصة أو حساسة حول أشخاص محددين، على الرغم من أن OpenAI تعترف مباشرة بأن الأخطاء لا تزال ممكنة.

إذا ظهرت المعلومات الشخصية في الرد وكان الشخص يعتبرها غير دقيقة أو غير مناسبة، يمكنه تقديم طلب من خلال بوابة الخصوصية. في الوقت نفسه، تؤكد الشركة أن حماية الخصوصية والاستجابة للمخاطر الجادة، مثل التهديدات الموثوقة بالعنف، يجب أن تعمل في نفس الوقت، وليس تتعارض مع بعضها.

« حماية الخصوصية هي جزء مركزي من كيفية بناء ChatGPT. »

ما الإعدادات المتاحة

الجزء الأكثر عملية من المادة هو قائمة بمفاتيح المستخدم التي تسمح بالقرار بشأن كمية البيانات المراد توفيرها للنظام. تؤكد OpenAI أن التحكم في المحادثات لا يتم إخفاؤه في أعماق التوثيق، بل يتم وضعه مباشرة في واجهة ChatGPT. أي أنها لا تتعلق فقط بمبادئ الشركة، بل بإجراءات عملية جدًا: يمكنك تعطيل مشاركة الدردشات الجديدة في التدريب أو إزالة الذاكرة أو التبديل إلى وضع مؤقت منفصل للطلبات الأكثر حساسية.

  • في Settings -> Data Controls يمكنك تعطيل خيار Improve the model for everyone. بعد ذلك، ستبقى الدردشات الجديدة في السجل، لكن لن تُستخدم في تدريب النماذج.
  • يطلق وضع Temporary Chat محادثة لمرة واحدة: لا يتم حفظها في السجل ولا تنشئ ذاكرة ولا تحسّن النماذج.
  • يتم تخزين الدردشات المؤقتة لمدة 30 يومًا لأغراض الأمان ثم يتم حذفها.
  • يمكن عرض وظيفة Memory وتحريرها وتنظيفها أو تعطيلها بالكامل إذا كنت لا تريد أن يتذكر ChatGPT التفاصيل السابقة.
  • يمكن للمستخدمين أيضًا تصدير بياناتهم وحذف حسابهم وتقديم طلب عبر بوابة الخصوصية.

هناك أيضًا تحذير مباشر: لا ترسل معلومات حساسة إلى ChatGPT لست مستعدًا لمشاركتها حتى في سياق مراجعة النظام أو معالجته. هذا تحفظ مهم، لأن الكثيرين ينظرون إلى واجهة الدردشة على أنها دفتر ملاحظات خاص أو محاور آمن بشكل افتراضي. OpenAI، على النقيض من ذلك، تحاول نقل نموذج استخدام أكثر صحوة: للمستخدم أدوات تحكم، لكن المسؤولية عما بالضبط يدخله في الخدمة لا تختفي.

ماذا يعني هذا

تحاول OpenAI بشكل أساسي نقل النقاش حول الخصوصية من مستوى الوعود العامة إلى مجموعة من القواعد والمفاتيح الملموسة. بالنسبة للمستخدمين، هذا مفيد: أصبح أوضح أي بيانات يمكنها المشاركة في التدريب وكيفية تعطيل هذا السيناريو وكيف تختلف الدردشة العادية عن Temporary Chat. بالنسبة للسوق، هذا إشارة على أن الثقة بمنتجات الذكاء الاصطناعي تعتمد بشكل متزايد ليس فقط على جودة النموذج، بل أيضًا على الشفافية في التعامل مع المعلومات الشخصية.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…