كيف تقيس أداء وكيل AI في QA: قصة benchmark

Q: ما هو المصدر؟

نُشر أصلاً على Habr AI. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

2026-05-17. وقت القراءة: 3 دقيقة.

جمع ميخائيل فيدوروف benchmark موضوعيًا لـ QA Assist، وهو نظام يضم 11 وكيل AI لأتمتة الاختبارات. وبدلًا من التقييمات الذاتية لأداء الوكيل، أصبح بالإمكان الآن مقا

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Habr AI

2026-05-17· 2 د

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News

كيف تقيس أداء وكيل AI في QA: قصة benchmark — المصدر: Habr AI. كولاج: Hamidun News.

◐ استمع للمقال

عندما يعمل عامل الذكاء الاصطناعي على مهام الاختبار، يصبح السؤال الرئيسي ملحاً: هل هو أفضل حقاً من أمس؟ لا يمكن الإجابة على هذا السؤال ببساطة — تحتاج إلى أرقام. واجه ميخائيل فيدوروف، مطور نظام QA Assist، هذه المشكلة مباشرة. QA Assist هو نظام يتكون من 11 عامل ذكاء اصطناعي يغطون معاً دورة الاختبار بأكملها: من تحليل المتطلبات إلى الاختبارات الآلية الجاهزة. لكن كيف تقيّم ما إذا تحسن النظام بعد التحديث التالي؟ بالعين المجردة — غير موثوق.

لماذا التقييمات البصرية لا تعمل

يمكن أن يكون التقييم الذاتي مضللاً: وجد العامل 5 أخطاء أمس، 7 اليوم، لكن هل يمكنك التأكد من أن النظام تحسن فعلاً بدلاً من تغيير مجموعة الاختبار ببساطة؟ إصدارات نموذجية مختلفة، نصوص توجيهية مختلفة، معاملات درجة حرارة LLM مختلفة — كل هذا يؤثر على النتيجة. بدون معيار قياسي منهجي، من الصعب معرفة ما الذي يساعد بالضبط. حل فيدوروف المشكلة بشكل جذري: أنشأ مشروع معيار قياسي منفصل حيث يعمل العامل بنفس القواعد، على نفس المتطلبات، مع نفس الحالات الحدية.

ما الذي يستطيع المعيار القياسي فعله

مقارنة إصدارات مختلفة من العامل على نفس مجموعة البيانات
اختبار تأثير تحسينات خط الأنابيب الفردية (هندسة النصوص التوجيهية، التغييرات في منطق التحليل)
التجريب مع النماذج: GPT-5.5 مقابل Claude مقابل الآخرين
تتبع التقدم بمرور الوقت مع تصور التحسينات
توليد تقرير شامل حول نسبة الأخطاء التي تم العثور عليها والتجاوزات والإيجابيات الكاذبة

مهم: لا يعني المعيار القياسي "مجموعة اختبار مثالية". يعني مجموعة اختبار منضبطة، حيث تكون المتغيرات في الحد الأدنى وكل تشغيل قابل للإعادة.

الحذيفات في عملية تشغيل واحدة

مع كل عملية تشغيل، يعد العامل مجموعة كاملة — المتطلبات الموثقة وتحليلها، سيناريوهات الاختبار مع الخطوات، كود الاختبار الآلي الجاهز، تقرير التغطية والتجاوزات، سجل القرارات المقبولة والمرفوضة. يتم تخزين جميع الحذيفات في مستودع عام، حتى تتمكن من رؤية كيف يستدل العامل على أمثلة مختلفة. هذا مفيد ليس فقط لتتبع التقدم، بل أيضاً للتصحيح: عندما يخطئ العامل، يمكنك أن ترى في أي خطوة من خطوات خط الأنابيب ولماذا.

ماذا يعني هذا

بالنسبة لمطوري أدوات ضمان الجودة، أصبحت المعايير القياسية إلزامية — إنها الطريقة الوحيدة للصدق مع نفسك بشأن جودة العمل. يوضح الوصول المفتوح إلى مشروع فيدوروف أن هذه الشفافية ممكنة. الفرق الأخرى التي تعمل مع عوامل الذكاء الاصطناعي في الاختبار تعرف الآن ما الذي يجب فعله منذ البداية.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية