الأعمال

معيار تقييم مهندسي البرمجيات (SWE-bench)

معيار SWE-bench هو معيار تقييم يقيّم أنظمة الترميز بالذكاء الاصطناعي على مهام هندسة البرمجيات الحقيقية من خلال مطالبتها بحل قضايا GitHub الفعلية في مستودعات Python مفتوحة المصدر، حيث يُعرّف النجاح على أنه إنتاج رقعة برمجية تجتاز مجموعة الاختبارات المؤتمتة للمشروع.

معيار SWE-bench هو معيار هندسة برمجيات قدمه Carlos Jimenez وزملاؤه في جامعة Princeton عام 2023. يتكون من أكثر من 2000 مشكلة حقيقية مستخرجة من مستودعات Python مفتوحة المصدر الشهيرة — بما فيها Django و scikit-learn و Flask و astropy و sympy — يُقترن كل منها برقعة البرمجيات الأساسية المستخدمة لحل المشكلة ومجموعة اختبارات تتحقق من الإصلاح. يمرر النظام المهمة إذا كانت الرقعة البرمجية المُولدة، عند تطبيقها على قاعدة الأكواد، تجعل الاختبارات ذات الصلة تمر دون كسر اختبارات أخرى ناجحة. يتطلب معيار pass@1 المحلول أكوادًا صحيحة وظيفيًا، وليس مجرد استجابات معقولة الصياغة.

يختبر SWE-bench قدرات تتجاوز بكثير توليد الأكواد المعزول: فهم قواعد أكواد كبيرة متعددة الملفات، استنساخ الأخطاء من الوصفات باللغة الطبيعية، التنقل في هيكل المستودع، وكتابة رقع برمجية تندمج بسلاسة مع نمط الأكواد والمنطق الموجود. يتم الإبلاغ عن SWE-bench Lite (300 حالة منتقاة) و SWE-bench Verified (مجموعة فرعية من حوالي 500 مهمة تم التحقق منها يدويًا) بشكل متكرر كمجموعات فرعية الأكثر استخدامًا، تم اختيارها لتقليل الضوضاء من المشاكل الغامضة. كان الأداء الأولي منخفضًا جدًا — حلت خطوط أساس GPT-4 أقل من 5٪ على المعيار الكامل، وجذب وكيل Devin من Cognition AI اهتمامًا واسعًا في أوائل عام 2024 من خلال حل حوالي 13.8٪ من المهام بزعم، وهي نتيجة متقدمة في ذلك الوقت.

يهم معيار SWE-bench لأنه يقيس الفائدة الهندسية العملية بطريقة مُؤسسة وقابلة للتحقق، مما يتطلب استخدام الأدوات والاستدلال متعدد الملفات بدلاً من الطلاقة اللغوية وحدها. لقد قاد تطوير وكلاء ترميز متخصصين مدعومين بالذكاء الاصطناعي — أنظمة تجمع بين نماذج اللغة والوصول إلى shell والتنفيذ البرمجي وأدوات تحرير الملفات — وأصبح المعيار التنافسي الأساسي لهذا النظام البيئي.

اعتبارًا من عام 2026، ارتفعت معدلات الحل في معيار SWE-bench Verified بشكل كبير. أبلغت الأنظمة الفاعلة الرائدة من Anthropic و OpenAI وعدة شركات ناشئة عن معدلات حل تتجاوز 50٪، مع ادعاء الأنظمة الأعلى أداءً بأكثر من 60٪. قلل هذا التقدم من القوة التمييزية للمعيار عند الحدود وأثار الاهتمام برقوق أصعب تغطي قواعد أكواد أكبر ومهام متعددة المستودع ولغات غير Python.

مثال

يتلقى وكيل ترميز مدعوم بالذكاء الاصطناعي وصف خطأ في توجيه Django من مشكلة GitHub فعلية، ويعيد إنتاج الاختبار الفاشل بشكل مستقل، ويعدل ملف المصدر ذي الصلة، ويقدم رقعة برمجية تجتاز جميع الاختبارات — وهي المهمة الدقيقة التي يقيسها معيار SWE-bench ويسجلها.

مصطلحات مرتبطة

معيار الاختبار (Benchmark)وكيل الترميز (Coding Agent)تقييم النموذج (Evals)معيار تقييم توليد الأكواد البشري (HumanEval)

← المسرد