OpenAI Blog→ المصدر

تشرح OpenAI أصل "الغوبلينز" في GPT-5: كيف تسلل عطل الشخصية إلى النموذج

كشفت OpenAI عن عادة نطقية غريبة في GPT-5: كان النموذج يدرج بشكل متزايد "الغوبلينز" و"العفاريت" وكائنات أخرى في الإجابات. تم تحديد مصدر المشكلة في تدريب وضع…

معالج بواسطة الذكاء الاصطناعي من OpenAI Blog؛ بتحرير Hamidun News
تشرح OpenAI أصل "الغوبلينز" في GPT-5: كيف تسلل عطل الشخصية إلى النموذج
المصدر: OpenAI Blog. كولاج: Hamidun News.
◐ استمع للمقال

شرحت OpenAI في تحليل جديد غرابة لاحظها المستخدمون والموظفون عبر عدة أجيال من GPT-5: كان النموذج يذكر بشكل متزايد "الجوبلن" و"الجريملن" وكائنات أخرى في الاستعارات والنكات. تتبعت الشركة كيفية ظهور هذا الخلل اللغوي بعد GPT-5.1، وتكثف في GPT-5.4 ووصل جزئياً إلى GPT-5.5، ثم أظهرت بالضبط أي مرحلة تدريب أنتجت هذا التأثير.

كيفية اكتشاف الشذوذ

لاحظت OpenAI الإشارات الواضحة الأولى في نوفمبر، بعد إطلاق GPT-5.1 مباشرة. دفعت شكاوى المستخدمين بشأن نبرة النموذج غير الرسمية والكلمات المتكررة إلى إجراء التحقيق. طلب أحد باحثي الأمان على وجه التحديد التحقق من ذكر "جوبلن" و"جريملن" لأنه واجه بنفسه هذه الصيغ عدة مرات. عندما جمعت الفريق الإحصائيات، اكتشفوا أنه بعد إطلاق GPT-5.1، كانت كلمة "جوبلن" تظهر في ChatGPT بنسبة 175% أكثر، و"جريملن" بنسبة 52% أكثر.

في البداية، لم يبدو وكأنه عطل خطير: قد تبدو استعارة واحدة غير ضارة أو حتى مضحكة. لكن في GPT-5.4 أصبح الارتفاع أكثر وضوحاً، وأثناء الاختبار المبكر لـ GPT-5.5 في Codex، بدأ الموظفون بالفعل يلاحظون بكثرة الميل الغريب للنموذج نحو مقارنات "الجوبلن".

بالنسبة إلى OpenAI، كان هذا نوعاً غير سار من الأعطال: ليس انخفاضاً في المعايير أو علم أحمر في المقاييس، بل عادة لغوية صغيرة تنتشر بين الإصدارات وتغير تدريجياً أسلوب الإجابات.

أصل الجوبلن

تم العثور على الدليل الرئيسي في دالة التخصيص. لاحظت OpenAI أن مفردات "الجوبلن" ظهرت بشكل غير متناسب بين المستخدمين الذين اختاروا وضع شخصية Nerdy. كان الوضع نفسه يمثل فقط 2.5% من جميع إجابات ChatGPT، لكنه كان مسؤولاً عن 66.7% من جميع ذكرات "الجوبلن".

في التعليمات النظامية لهذه الشخصية، طُلب من النموذج أن يكون ودوداً وحكيماً وغريب الأطوار قليلاً وأن يقلل من التيه باللغة الودية. حول هذا على الفور البحث عن السبب من مجال التخمين إلى مجال إشارة تدريب محددة.

"العالم معقد وغريب، وهذه الغرابة يجب أن تُعترف بها وتُحلل وحتى تُستمتع بها."

بعد ذلك، قارنت OpenAI الإجابات المولدة أثناء التدريب RL، مع وبدون ذكر "جوبلن" أو "جريملن". برز إشارة مكافأة واحدة على الفور: تلك المخصصة لتعزيز أسلوب Nerdy قيمت "الكائنات" بشكل منهجي بشكل أعلى. أظهرت عملية تدقيق داخلية تحولاً إيجابياً لصالح هذه الصيغ في 76.2% من مجموعات البيانات. يفسر هذا السبب في تكثف التلعثم داخل Nerdy، لكنه لم يفسر السبب في أنه بدأ يظهر خارج هذا الوضع أيضاً.

هنا دخل نقل السلوك في الاعتبار. وفقاً لبيانات OpenAI، عندما زادت ذكرات "جوبلن" و"جريملن" داخل Nerdy، زادت بنسبة نسبية متشابهة تقريباً في العينات بدون هذا الفحص أيضاً. بعبارة أخرى، بدأ الأسلوب المكافأ محلياً بالتسرب إلى الأسلوب الأكثر عمومية للنموذج.

هذه لحظة مهمة: تم تعزيز العادة ليس كمميزة لشخصية واحدة، بل كتقنية إجابة عامة مقبولة.

تصف الشركة الآلية على النحو التالي:

  • يتم مكافأة أسلوب الإجابة الودي
  • تحتوي بعض الأمثلة الناجحة على الخلل اللغوي المميز
  • يبدأ الخلل بالظهور بشكل متكرر أكثر في إجابات النشر الجديدة
  • تدخل هذه الإجابات في الضبط الدقيق الخاضع للإشراف وبيانات التفضيل
  • ينسخ النموذج نفس التقنية بثقة أكبر

أظهر فحص إضافي لبيانات SFT لـ GPT-5.5 أن المشكلة لم تقتصر على الجوبلن فقط. تم العثور على "كائنات إشارات" أخرى في أمثلة التدريب: الراكون والترولات والأوغري والحمام. في الوقت نفسه، تبين أن كلمة "frog" في معظم الحالات طبيعية ومناسبة في السياق، مما يعني أن المشكلة لم تكن مع أي حيوانات أو صور خيالية، بل مع نمط كلام محدد متجذر.

بعبارة أخرى، اتضح أن مفردات الشذوذ أوسع مما اقترحته الشكاوى الأولية.

كيفية إصلاح OpenAI لها

بعد إطلاق GPT-5.4، أزالت الشركة وضع شخصية Nerdy في مارس وبدأت بشكل متزامن في إصلاح حلقة التدريب نفسها. تمت إزالة إشارة المكافأة التي فضلت على وجه الخصوص استعارات "الجوبلن" من التدريب، وبدأ تصفية البيانات التي تحتوي على كلمات كائن هذه بحيث لا تبالغ في التأكيد على الأسلوب ولا تظهر في سياقات غير مناسبة.

لم يكن هذا إصلاحاً سطحياً على السطح، بل محاولة لإزالة مصدر الشذوذ في منطق التدريب نفسه قبل تعميق التأثير أكثر.

لم تتمكن الشركة من تجنب التأثير تماماً على الفور: كان تدريب GPT-5.5 قد بدأ بالفعل قبل وصول الفريق إلى السبب الجذري. لذا في مرحلة اختبار Codex، أضافت OpenAI تعليماً منفصلاً للمطور يقمع مثل هذه الصيغ. بعبارة أخرى، كان تعطيل Nerdy ببساطة غير كافٍ.

بشكل فعلي، تعترف الشركة بأن حتى المكافأة المضبوطة بدقة يمكن أن تتسرب إلى الأسلوب العام للنموذج وتبقى خلال عدة تكرارات تدريب إذا لم يتم اكتشاف التأثير الجانبي في الوقت المناسب.

أصبح هذا الحالة سبباً للباحثين لبناء أدوات جديدة لتدقيق السلوك.

ما يعنيه هذا

قصة "الجوبلن" مهمة ليس لأجل الجوبلن نفسه، بل لأنها تكشف نقطة ضعف في النماذج الحديثة: حافز أسلوبي صغير في إعداد شخصية واحدة يمكن أن يغير بشكل غير محسوس كلام النظام بأكمله.

بالنسبة للمطورين، هذه إشارة جيدة بأن سلوك النموذج يجب أن يخضع للتدقيق ليس فقط من خلال المقاييس الكبيرة، بل أيضاً من خلال العادات اللغوية الصغيرة التي تصبح لاحقاً نظامية. غالباً ما تكون هذه التفاصيل الصغيرة هي الأولى التي تكشف عن تحول مخفي في التدريب.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…