تتخلى OpenAI عن المعيار المرجعي الأبرز لتقييم الكود — وهذا يغيّر قواعد اللعبة

Q: ما هو المصدر؟

نُشر أصلاً على OpenAI Blog. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

23 فبراير 2026. وقت القراءة: 3 دقيقة.

توقف OpenAI تقييم نماذجها على SWE-bench Verified — وهو معيار مرجعي كان يُنظر إليه على أنه المعيار الذهبي لقياس قدرة AI على كتابة الكود. وتقول الشركة إن هذا…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · OpenAI Blog

23 فبراير 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من OpenAI Blog؛ بتحرير Hamidun News

تتخلى OpenAI عن المعيار المرجعي الأبرز لتقييم الكود — وهذا يغيّر قواعد اللعبة — المصدر: OpenAI Blog. كولاج: Hamidun News.

◐ استمع للمقال

عندما تترك شركة كانت نماذجها تحتل باستمرار المراكز الأولى في التصنيفات هذا التصنيف علناً، فهذا ليس مجرد قرار شركة. إنه إشارة لمشكلة منهجية. أعلنت OpenAI أنها توقفت تقييم نماذجها على SWE-bench Verified — المعيار الذي خدم خلال السنتين الماضيتين كمقياس رئيسي لمدى جودة قدرة الذكاء الاصطناعي على كتابة وإصلاح الكود الفعلي. السبب بسيط وقلق في نفس الوقت: المعيار لم يعد يقيس ما يجب أن يقيسه.

ظهر SWE-bench كمحاولة طموحة للخروج عن الاختبارات الاصطناعية. بدلاً من طلب النموذج حل مسألة مجردة في LeetCode، قدم المعيار تقارير أخطاء فعلية من مشاريع مشفوعة بالدعم الشهيرة بلغة Python — Django وscikit-learn وsympy وغيرها. كان على النموذج أن يفهم وصف الخطأ، وأن يجد الملف الصحيح في المستودع، وأن يكتب إصلاح يجتاز الاختبارات. ظهرت نسخة Verified لاحقاً كمتغير نظيف — مع التحقق اليدوي من المهام من قبل الإنسان. كان على هذه النسخة أن تتنافس المختبرات، وتنشر بفخر نسب المشاكل المحلولة في كل بيان صحفي.

لكن خلف واجهة الأرقام المثيرة للإعجاب، كانت المشاكل تتراكم. كشف التحليل الداخلي لـ OpenAI عن ثغرتين حرجتين. الأولى — تلوث بيانات التدريب. تستند مهام SWE-bench Verified إلى طلبات سحب عامة في المستودعات المفتوحة. تدخل هذه البيانات حتماً في مجموعات تدريب نماذج اللغة الكبيرة. بعبارة أخرى، كانت النماذج قد ترى الإجابات الصحيحة قبل أن تبدأ اختبارها. هذه مشكلة تسرب بيانات كلاسيكية، لكن في حالة SWE-bench اتخذت نطاقاً يجعل النتائج عديمة المعنى إحصائياً. المشكلة الثانية — جودة الاختبارات نفسها. احتوت بعض المهام على اختبارات غير صحيحة أو غير كاملة قد تتجاهل الحلول غير الصحيحة أو ترفض الصحيحة. عندما يصبح المعيار شهيراً بدرجة كافية، يبدأ الناس في تحسينه — وليس دائماً بطرق شريفة.

من المهم فهم السياق الذي تم اتخاذ هذا القرار فيه. تشهد صناعة الترميز بالذكاء الاصطناعي نمواً انفجارياً. تجذب العشرات من الشركات الناشئة — من Cognition بـ Devin إلى Poolside و Magic — مئات الملايين من الدولارات من الاستثمارات، وتستخدم جميعها تقريباً نتائج SWE-bench كحجة رئيسية في عروض الملعب الخاصة بها. تنشر المختبرات الكبرى — Anthropic و Google DeepMind و OpenAI نفسها — النتائج على هذا المعيار مع كل إطلاق نموذج جديد. فعلياً، أصبح SWE-bench Verified عملة الثقة في قطاع البرمجة بالذكاء الاصطناعي. والآن تقول OpenAI: هذه العملة فقدت قيمتها.

توصي الشركة بالانتقال إلى SWE-bench Pro — نسخة محدثة من المعيار التي تحل المشكلتين بالتصميم. يتم اختيار المهام الجديدة بشكل خاص لتقليل التداخل مع بيانات التدريب العامة، والاختبارات تخضع لتحقق أكثر صرامة. ومع ذلك، ينشأ سؤال طبيعي: كم من الوقت سيظل SWE-bench Pro نظيفاً؟ تاريخ المعايير في التعلم الآلي هو قصة تدهورها التدريجي. ImageNet و GLUE و SuperGLUE و MMLU — توقف كل منها في النهاية عن التمييز بين النماذج الحقيقية القوية وتلك المدربة جيداً فقط على اختبار محدد.

بالنسبة للصناعة، تتجاوز عواقب هذا القرار معيار واحد. يجب على المستثمرين الذين يضعون أموالهم في شركات ترميز الذكاء الاصطناعي الناشئة أن يسألوا أنفسهم الآن: ماذا يقف فعلاً خلف تلك الأرقام المثيرة للإعجاب التي تم عرضها عليهم؟ تُجبر الشركات التي تدمج مساعدات مدعومة بالذكاء الاصطناعي في عمليات التطوير الخاصة بها على إعادة النظر في معايير الاختيار. ويتلقى الباحثون تذكيراً آخر بأنه في السباق للقيادة على المعايير، ينقطع الاتصال بالفائدة الفعلية.

هناك أيضاً سؤال أعمق. إذا اعترفت أكبر مختبر ذكاء اصطناعي في العالم بأن الأداة القياسية لقياس التقدم معطوبة، فكيف نفهم ما إذا كانت النماذج في الواقع تتحسن؟ في عالم يأتي فيه كل ربع سنة نموذج "ثوري" جديد برقام قياسية، فإن غياب مقياس موثوق ليس مسألة تقنية صغيرة، بل مشكلة أساسية. OpenAI تستحق الاحترام لصراحة هذا الاعتراف.

لكن حقيقة أن الصناعة اعتمدت على معيار ملوث لفترة طويلة جداً تتحدث عن نقص منهجي في التفكير النقدي في المجتمع. الانتقال إلى SWE-bench Pro هو خطوة في الاتجاه الصحيح. لكن سيبدأ التقدم الحقيقي عندما نتوقف عن تقليل تقييم الذكاء الاصطناعي إلى رقم واحد على اختبار واحد ونبدأ في بناء أنظمة تقييم متعددة الأبعاد ومقاومة للتلاعب، تعكس القدرة الحقيقية للنماذج على مساعدة المطورين في عملهم اليومي.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية