كيف تقيس أداء وكيل AI في QA: قصة benchmark
جمع ميخائيل فيدوروف benchmark موضوعيًا لـ QA Assist، وهو نظام يضم 11 وكيل AI لأتمتة الاختبارات. وبدلًا من التقييمات الذاتية لأداء الوكيل، أصبح بالإمكان الآن مقا
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
عندما يعمل عامل الذكاء الاصطناعي على مهام الاختبار، يصبح السؤال الرئيسي ملحاً: هل هو أفضل حقاً من أمس؟ لا يمكن الإجابة على هذا السؤال ببساطة — تحتاج إلى أرقام. واجه ميخائيل فيدوروف، مطور نظام QA Assist، هذه المشكلة مباشرة. QA Assist هو نظام يتكون من 11 عامل ذكاء اصطناعي يغطون معاً دورة الاختبار بأكملها: من تحليل المتطلبات إلى الاختبارات الآلية الجاهزة. لكن كيف تقيّم ما إذا تحسن النظام بعد التحديث التالي؟ بالعين المجردة — غير موثوق.
لماذا التقييمات البصرية لا تعمل
يمكن أن يكون التقييم الذاتي مضللاً: وجد العامل 5 أخطاء أمس، 7 اليوم، لكن هل يمكنك التأكد من أن النظام تحسن فعلاً بدلاً من تغيير مجموعة الاختبار ببساطة؟ إصدارات نموذجية مختلفة، نصوص توجيهية مختلفة، معاملات درجة حرارة LLM مختلفة — كل هذا يؤثر على النتيجة. بدون معيار قياسي منهجي، من الصعب معرفة ما الذي يساعد بالضبط. حل فيدوروف المشكلة بشكل جذري: أنشأ مشروع معيار قياسي منفصل حيث يعمل العامل بنفس القواعد، على نفس المتطلبات، مع نفس الحالات الحدية.
ما الذي يستطيع المعيار القياسي فعله
- مقارنة إصدارات مختلفة من العامل على نفس مجموعة البيانات
- اختبار تأثير تحسينات خط الأنابيب الفردية (هندسة النصوص التوجيهية، التغييرات في منطق التحليل)
- التجريب مع النماذج: GPT-5.5 مقابل Claude مقابل الآخرين
- تتبع التقدم بمرور الوقت مع تصور التحسينات
- توليد تقرير شامل حول نسبة الأخطاء التي تم العثور عليها والتجاوزات والإيجابيات الكاذبة
مهم: لا يعني المعيار القياسي "مجموعة اختبار مثالية". يعني مجموعة اختبار منضبطة، حيث تكون المتغيرات في الحد الأدنى وكل تشغيل قابل للإعادة.
الحذيفات في عملية تشغيل واحدة
مع كل عملية تشغيل، يعد العامل مجموعة كاملة — المتطلبات الموثقة وتحليلها، سيناريوهات الاختبار مع الخطوات، كود الاختبار الآلي الجاهز، تقرير التغطية والتجاوزات، سجل القرارات المقبولة والمرفوضة. يتم تخزين جميع الحذيفات في مستودع عام، حتى تتمكن من رؤية كيف يستدل العامل على أمثلة مختلفة. هذا مفيد ليس فقط لتتبع التقدم، بل أيضاً للتصحيح: عندما يخطئ العامل، يمكنك أن ترى في أي خطوة من خطوات خط الأنابيب ولماذا.
ماذا يعني هذا
بالنسبة لمطوري أدوات ضمان الجودة، أصبحت المعايير القياسية إلزامية — إنها الطريقة الوحيدة للصدق مع نفسك بشأن جودة العمل. يوضح الوصول المفتوح إلى مشروع فيدوروف أن هذه الشفافية ممكنة. الفرق الأخرى التي تعمل مع عوامل الذكاء الاصطناعي في الاختبار تعرف الآن ما الذي يجب فعله منذ البداية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.