Cursor شكك في المقاييس العامة لـ AI الخاصة بالبرمجة عبر خمسة رسوم بيانية
نشرت Cursor خمسة رسوم بيانية حول كيفية تقييمها للنماذج الخاصة بالبرمجة، ووضعت فعليًا معظم المقاييس العامة لـ AI موضع تشكيك. الفكرة الأساسية: لا تهم فقط نسبة…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
في 11 مارس 2026، نشر كيرسور شرحاً لكيفية مقارنته للنماذج داخل منتجه، وبهذا وجّه ضربة غير متوقعة إلى صناعة معايير الذكاء الاصطناعي للأكواد بأكملها. بدلاً من جدول ترتيب آخر، أظهرت الشركة لماذا النسب المئوية المألوفة للمهام المحلولة تصف بشكل متزايد سوء القيمة الحقيقية للمطورين.
لماذا تكون الرسوم البيانية مهمة
الاستنتاج الأول لكيرسور عملي جداً: لا يمكن تقييم نموذج البرمجة فقط من خلال نسبة المهام المحلولة. عرضت الشركة رسماً بيانياً حيث قفتْ جنباً إلى جنب مقياسان - دقة الإجابة والعدد الوسيط للرموز لإكمال المهمة. بالنسبة للمستخدم، هذا ليس مجرد تجريد. تتحول الرموز إلى تأخير وتكلفة وشعور بالعمل. إذا كان نموذج واحد يحل عدداً أكبر قليلاً من المهام لكنه يستهلك رموزاً أكثر عدة مرات، فقد يخسر كمنتج. تخفي المعايير العامة عادة هذا الحل الوسط وتترك نسبة مئوية جميلة واحدة فقط في الجدول.
كانت الضربة الثانية موجهة إلى فكرة الاختبار "المستقر" نفسها. يتم تجميع CursorBench من جلسات حقيقية من خلال نظام Cursor Blame، الذي يربط الأكواد المرتكبة بطلبات الوكيل. وفقاً لكيرسور، من الإصدار الأول إلى CursorBench-3، تضاعف نطاق المهام تقريباً من حيث حجم الأكواد والعدد المتوسط للملفات. هذا يعني أن المطورين يطلبون بالفعل من الذكاء الاصطناعي ليس فقط إصلاح الأخطاء الصغيرة، بل التعامل مع مهام أطول موزعة عبر المشروع. في هذا السياق، تزداد المجموعات المتجمدة مثل SWE-bench قدماً أسرع فأسرع، حتى لو كانت نتائجها قابلة للتكرار رسمياً.
خمسة نقاط ضعيفة
إذا جمعتَ الاستنتاجات من خمسة رسوم بيانية في إطار واحد، فإن النتيجة ليست إعلاناً لمعيار داخلي، بل نقد لنظام التقييم الحالي بأكمله للنماذج البرمجية. كيرسور يقول فعلياً: اعتادت الصناعة على قياس ما يسهل عده، وليس ما يشعر به المطورون حقاً في المحرر والمحطة والجلسة الطويلة من العمل.
- التصنيف بمقياس واحد يخفي الحل الوسط بين جودة الإجابة وسرعتها وتكلفتها.
- تصبح مجموعة المهام المتجمدة قديمة بينما تصبح الطلبات الحقيقية للوكلاء أطول وأكثر تعقيداً.
- تختبر المسائل الطويلة ذات الرقع القصيرة اتباع التعليمات، وليس فهم النية الغامضة.
- لا تساعد النتائج المتقاربة بين النماذج الأفضل في اختيار أداة للإنتاج.
- الدرجات في وضع عدم الاتصال لا تعني الكثير إذا لم ترتبط بكيفية تصرف النموذج في منتج حقيقي.
كيف يعمل CursorBench
يختلف نهج كيرسور ليس فقط في مجموعة المهام، بل في ما يعتبر اختباراً جيداً. في المعايير العامة، غالباً ما يتلقى المطور وصفاً طويلاً لخطأ ويجري إصلاحاً قصيراً دقيقاً. في CursorBench، الصورة معكوسة: الأوصاف أقصر، لكن الحلول أطول. هذا أقرب إلى العمل الحقيقي، عندما يكتب الشخص شيئاً مثل "أصلح تسجيل الدخول" أو "أعد هيكلة خط الأنابيب" للوكيل، وبعدها يجب على النموذج أن يفهم سياق المستودع ويختار استراتيجية ويدخل تغييرات كبيرة في عدة ملفات. إذاً يتم اختبار ليس فقط الدقة، بل أيضاً القدرة على تطوير النية.
يؤدي هذا إلى تأثير مهم آخر: CursorBench يفصل بشكل أفضل نتائج النماذج على الحدود. حيث تبدأ الاختبارات العامة في إظهار درجات متطابقة تقريباً وحتى تضع نماذج أضعف بجانب نماذج أقوى، تحتفظ المجموعة الداخلية لكيرسور بالفروقات التي تتطابق مع تجربة المستخدم. تكمل الشركة التقييم في وضع عدم الاتصال بتجارب عملية محكومة على حركة المرور المباشرة وتنظر ليس إلى رقم واحد، بل إلى مجموعة من الإشارات - جودة النتيجة وسلوك الوكيل والفائدة للمطور. إذا اعتبر مقيّم في وضع عدم الاتصال الإجابة صحيحة، لكن المستخدم يجد صعوبة أكبر في العمل بها، فإن هذا التدهور سيظهر على أي حال.
ماذا يعني هذا
تكتسب القصة أهميتها ليس فقط لمستخدمي كيرسور. فهي تُظهر أن سوق وكلاء الأكواد دخل مرحلة حيث لا تعود جداول الترتيب الاصطناعية بمثابة دليل موثوق، خاصة عند الاختيار بين أفضل النماذج. الموجة التالية من المنافسة لن تكون من أجل أعلى درجة معيار، بل من أجل التوازن بين الجودة والسرعة والتكلفة ومدى ثقة الوكيل في التعامل مع مهام هندسية حقيقية، غير محددة بشكل مثالي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.