بحث حول ChatGPT: هل تؤثر الصيغة النحوية الأنثوية في المطالبة على جودة حل المهام
اختبرت باحثة ما إذا كانت صيغة النوع النحوي في المطالبة باللغة الروسية تؤثر على جودة البرمجة لدى ChatGPT. في معيار LiveCodeBench، أظهر GPT-5.4 mini أداءً أسوأ…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
كشفت تجربة صغيرة ولكن أُجريت بعناية عن تأثير غير سار: في GPT-5.4 mini، يمكن للصيغة باللغة الروسية بشكل "نسوي" في المحفزات أن تؤدي إلى تدهور طفيف في جودة حلول مهام البرمجة. عندما اختلف إطار المستخدم بعلامة جنس واحدة فقط، كان الطراز يرتكب الأخطاء بشكل أكثر تكراراً في المتغير "я хотела бы твоей помощи" [أود مساعدتك (أنثى)]، في حين أن الصيغ المحايدة و"الذكورية" أعطت نتائج متطابقة تقريباً.
في المهام البسيطة، اختفى الفرق تقريباً، لكن في المهام المعقدة بدا الفرق ذا دلالة إحصائية. جاء الدافع للتحقق من ملاحظة عرضية قدمتها مهندسة بحث متخصصة في التعلم الآلي، لاحظت أن إجابات الطراز أصبحت أقل دقة عندما كان الحوار باللغة الروسية يحتوي على صيغ نسوية مثل "я уже попробовала" [حاولت بالفعل (أنثى)] أو "я хотела бы" [أود (أنثى)]. لكي لا تعتمد على الحدس وحده، صاغت السؤال بدقة: هل تغير الاستعراض الذاتي المحدد بالجنس باللغة الروسية جودة حلول المهام البرمجية باللغة الإنجليزية، إذا بقي كل شيء آخر في المحفز وصيغة الرد دون تغيير؟ بالنسبة للاختبار، اختاروا LiveCodeBench — معيار شهير يحتوي على مهام من LeetCode و AtCoder و Codeforces، حيث يمكن التحقق من الحلول بشكل موضوعي من خلال حالات اختبار جاهزة.
الفكرة الأساسية للتجربة هي أن الاختلافات بين متغيرات المحفزات كانت ضئيلة. في النسخة المحايدة، طُلب من الطراز ببساطة مساعدة في حل مهمة Python. في المتغير "الذكوري"، تغيرت عبارة واحدة إلى "я хотел бы твоей помощи" [أود مساعدتك (ذكر)]، وفي المتغير "النسوي" إلى "я хотела бы твоей помощи" [أود مساعدتك (أنثى)].
تحققوا أيضاً من زوج ثانٍ من الصيغ المتشابهة. في المجموع، تم استخدام 1055 مهمة من إصدار LiveCodeBench v6، مع أكثر المعاملات صرامة: محاولة واحدة لكل مهمة، درجة الحرارة 0، والمقياس الأساسي هو pass@1 — أي ما إذا كان الطراز يحل المهمة من المحاولة الأولى. تم اختبار نموذجي OpenAI: GPT-5.
4 mini و GPT-5.4. لتقييم قوة النتيجة، طبقوا إعادة أخذ عينات بطريقة bootstrap مع 10000 عينة معاد أخذها وفاصل ثقة بنسبة 95 بالمائة.
ظهر التأثير على GPT-5.4 mini بوضوح تام. أعطت الصيغ المحايدة pass@1 بحوالي 0.
661-0.663، و"الذكورية" من 0.660 إلى 0.
668، و"النسوية" 0.649-0.652.
بعد دمج متغيري المحفز، أعطى الفرق بين female و male فاصل ثقة من -0.0265 إلى -0.0005، أي أنه لم يعبر الصفر.
بعبارة أخرى، الانخفاض صغير لكنه غير عشوائي من الناحية الإحصائية. بدأت الجزء الأكثر إثارة للاهتمام من حيث الصعوبة: في المهام السهلة والمتوسطة، كاد لا يكون هناك تأثير ذو دلالة، لكن في المهام الصعبة كان الفرق بين الإطار "النسوي" و"الذكوري" -0.0314 مع فاصل ثقة من -0.
0600 إلى -0.0043. عبر المنصات، لم يتم العثور على أي اختلاف ملحوظ، لكن في المهام الأحدث ظهرت نزعة نحو فجوة أكبر، على الرغم من أنها تبين أنها أقل قوة من تقسيم الصعوبة.
مع طراز GPT-5.4 الرائد، كانت الصورة مختلفة. بسبب التكلفة والمدة، تم اختباره فقط على المهام الصعبة، ولم يكن من الممكن إعادة إنتاج التأثير.
الشرح المحتمل هو أن الطراز الأقوى يحل هذه المجموعة بشكل أفضل بكثير من نسخة mini — حوالي 57 بالمائة مقابل 33 بالمائة — لذلك بالنسبة له لم يعد هذا المعيار يقع على حدود قدراته. بمعنى آخر، قد تظهر الحساسية للصيغة بالضبط عندما يعمل الطراز على حدوده، بدلاً من أن يكون في منطقة الراحة الخاصة به. هذا قيد مهم: لا يمكن بعد الآن الادعاء بأن هذه خاصية عالمية لجميع نسخ ChatGPT أو جميع نماذج اللغة الكبيرة بشكل عام.
الاستنتاج العملي من هذه التجربة بسيط جداً. عندما يتعلق الأمر بمهام معقدة حيث تكون كل محاولة مهمة وقد يتعثر الطراز على التفاصيل الصغيرة، من الأفضل صيغة الطلبات بشكل محايد وعدم إضافة إطار شخصي غير ضروري. هذا ليس دليلاً على "التمييز الجنسي" بالمعنى العام، بل هو بمثابة إشارة إلى أن حتى الحد الأدنى من العلامات اللغوية يمكن أن يؤثر على جودة الإجابة في السيناريوهات القابلة للقياس. الخطوة المنطقية التالية هي اختبار نماذج أخرى ولغات أخرى ومجموعات بيانات أكثر تحدياً لفهم أين ينتهي ما يميز معيار المقارنة المحدد وأين تبدأ المشكلة النظامية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.