تتخلى OpenAI عن المعيار المرجعي الأبرز لتقييم الكود — وهذا يغيّر قواعد اللعبة
توقف OpenAI تقييم نماذجها على SWE-bench Verified — وهو معيار مرجعي كان يُنظر إليه على أنه المعيار الذهبي لقياس قدرة AI على كتابة الكود. وتقول الشركة إن هذا…
معالج بواسطة الذكاء الاصطناعي من OpenAI Blog؛ بتحرير Hamidun News
عندما تترك شركة كانت نماذجها تحتل باستمرار المراكز الأولى في التصنيفات هذا التصنيف علناً، فهذا ليس مجرد قرار شركة. إنه إشارة لمشكلة منهجية. أعلنت OpenAI أنها توقفت تقييم نماذجها على SWE-bench Verified — المعيار الذي خدم خلال السنتين الماضيتين كمقياس رئيسي لمدى جودة قدرة الذكاء الاصطناعي على كتابة وإصلاح الكود الفعلي. السبب بسيط وقلق في نفس الوقت: المعيار لم يعد يقيس ما يجب أن يقيسه.
ظهر SWE-bench كمحاولة طموحة للخروج عن الاختبارات الاصطناعية. بدلاً من طلب النموذج حل مسألة مجردة في LeetCode، قدم المعيار تقارير أخطاء فعلية من مشاريع مشفوعة بالدعم الشهيرة بلغة Python — Django وscikit-learn وsympy وغيرها. كان على النموذج أن يفهم وصف الخطأ، وأن يجد الملف الصحيح في المستودع، وأن يكتب إصلاح يجتاز الاختبارات. ظهرت نسخة Verified لاحقاً كمتغير نظيف — مع التحقق اليدوي من المهام من قبل الإنسان. كان على هذه النسخة أن تتنافس المختبرات، وتنشر بفخر نسب المشاكل المحلولة في كل بيان صحفي.
لكن خلف واجهة الأرقام المثيرة للإعجاب، كانت المشاكل تتراكم. كشف التحليل الداخلي لـ OpenAI عن ثغرتين حرجتين. الأولى — تلوث بيانات التدريب. تستند مهام SWE-bench Verified إلى طلبات سحب عامة في المستودعات المفتوحة. تدخل هذه البيانات حتماً في مجموعات تدريب نماذج اللغة الكبيرة. بعبارة أخرى، كانت النماذج قد ترى الإجابات الصحيحة قبل أن تبدأ اختبارها. هذه مشكلة تسرب بيانات كلاسيكية، لكن في حالة SWE-bench اتخذت نطاقاً يجعل النتائج عديمة المعنى إحصائياً. المشكلة الثانية — جودة الاختبارات نفسها. احتوت بعض المهام على اختبارات غير صحيحة أو غير كاملة قد تتجاهل الحلول غير الصحيحة أو ترفض الصحيحة. عندما يصبح المعيار شهيراً بدرجة كافية، يبدأ الناس في تحسينه — وليس دائماً بطرق شريفة.
من المهم فهم السياق الذي تم اتخاذ هذا القرار فيه. تشهد صناعة الترميز بالذكاء الاصطناعي نمواً انفجارياً. تجذب العشرات من الشركات الناشئة — من Cognition بـ Devin إلى Poolside و Magic — مئات الملايين من الدولارات من الاستثمارات، وتستخدم جميعها تقريباً نتائج SWE-bench كحجة رئيسية في عروض الملعب الخاصة بها. تنشر المختبرات الكبرى — Anthropic و Google DeepMind و OpenAI نفسها — النتائج على هذا المعيار مع كل إطلاق نموذج جديد. فعلياً، أصبح SWE-bench Verified عملة الثقة في قطاع البرمجة بالذكاء الاصطناعي. والآن تقول OpenAI: هذه العملة فقدت قيمتها.
توصي الشركة بالانتقال إلى SWE-bench Pro — نسخة محدثة من المعيار التي تحل المشكلتين بالتصميم. يتم اختيار المهام الجديدة بشكل خاص لتقليل التداخل مع بيانات التدريب العامة، والاختبارات تخضع لتحقق أكثر صرامة. ومع ذلك، ينشأ سؤال طبيعي: كم من الوقت سيظل SWE-bench Pro نظيفاً؟ تاريخ المعايير في التعلم الآلي هو قصة تدهورها التدريجي. ImageNet و GLUE و SuperGLUE و MMLU — توقف كل منها في النهاية عن التمييز بين النماذج الحقيقية القوية وتلك المدربة جيداً فقط على اختبار محدد.
بالنسبة للصناعة، تتجاوز عواقب هذا القرار معيار واحد. يجب على المستثمرين الذين يضعون أموالهم في شركات ترميز الذكاء الاصطناعي الناشئة أن يسألوا أنفسهم الآن: ماذا يقف فعلاً خلف تلك الأرقام المثيرة للإعجاب التي تم عرضها عليهم؟ تُجبر الشركات التي تدمج مساعدات مدعومة بالذكاء الاصطناعي في عمليات التطوير الخاصة بها على إعادة النظر في معايير الاختيار. ويتلقى الباحثون تذكيراً آخر بأنه في السباق للقيادة على المعايير، ينقطع الاتصال بالفائدة الفعلية.
هناك أيضاً سؤال أعمق. إذا اعترفت أكبر مختبر ذكاء اصطناعي في العالم بأن الأداة القياسية لقياس التقدم معطوبة، فكيف نفهم ما إذا كانت النماذج في الواقع تتحسن؟ في عالم يأتي فيه كل ربع سنة نموذج "ثوري" جديد برقام قياسية، فإن غياب مقياس موثوق ليس مسألة تقنية صغيرة، بل مشكلة أساسية. OpenAI تستحق الاحترام لصراحة هذا الاعتراف.
لكن حقيقة أن الصناعة اعتمدت على معيار ملوث لفترة طويلة جداً تتحدث عن نقص منهجي في التفكير النقدي في المجتمع. الانتقال إلى SWE-bench Pro هو خطوة في الاتجاه الصحيح. لكن سيبدأ التقدم الحقيقي عندما نتوقف عن تقليل تقييم الذكاء الاصطناعي إلى رقم واحد على اختبار واحد ونبدأ في بناء أنظمة تقييم متعددة الأبعاد ومقاومة للتلاعب، تعكس القدرة الحقيقية للنماذج على مساعدة المطورين في عملهم اليومي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.