AWS Machine Learning Blog→ المصدر

طرحت AWS Agent-EvalKit كمشروع مفتوح المصدر: تقييم منهجي لوكلاء AI عبر ست مراحل

أتاحت AWS Agent-EvalKit كمشروع مفتوح المصدر، وهو إطار عمل بترخيص Apache 2.0 للتقييم المنهجي لوكلاء AI. تتكامل الأداة مع Claude Code وKiro CLI وKilo Code،…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
طرحت AWS Agent-EvalKit كمشروع مفتوح المصدر: تقييم منهجي لوكلاء AI عبر ست مراحل
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت AWS أداة Agent-EvalKit — أداة مفتوحة المصدر (Apache 2.0) لتقييم منهجي لوكلاء الذكاء الاصطناعي. يتكامل الإطار مع Claude Code و Kiro CLI و Kilo Code ويوجّه الوكيل عبر ستة مراحل تحقق متتالية.

لماذا يهم تقييم الوكلاء

تطوير وكيل ذكاء اصطناعي أمر مباشر. فهم مدى جودة أدائه قصة أخرى. يمكن للوكيل أن يعيد إجابات معقولة مع استدعاء أدوات غير ضرورية، وينفق أوامر من حيث الحجم أكثر من الرموز مما هو مطلوب، أو يتخطى خطوات حاسمة في سلسلة التفكير الخاصة به. لا تعمل المقاييس القياسية مثل الدقة هنا: الوكيل نظام ديناميكي حيث لا تهم نقطة النهاية فقط، بل المسار كله إليها. سجلات الأدوات وترتيب الاستدعاءات والقرارات الوسيطة — كل هذا يؤثر على موثوقية الوكيل في الإنتاج. لهذا السبب قام فريق AWS بإنشاء بنية تحتية متخصصة للتقييم.

ست مراحل تحقق

يقوم الإطار بتشغيل وكيل بشكل متتالي عبر ستة مراحل:

  • تحضير المهمة — تشكيل مجموعة من حالات الاختبار مع بيانات الإدخال والسياق والإجابات المرجعية
  • تنفيذ الوكيل — تنفيذ المهام في بيئة محكومة مع تسجيل كامل للتتبع
  • تقييم المسار — التحقق من أن الوكيل استدعى الأدوات المطلوبة بالترتيب الصحيح
  • تقييم الإجابة النهائية — مقارنة النتيجة بالمرجع حسب المحتوى والهيكل والدقة
  • تحليل الأمان — فحص السلوك غير المرغوب والانتهاكات الخارجة عن النطاق
  • إنشاء التقرير — تجميع المقاييس وتشكيل درجة نهائية مع تفصيل حسب الفئات

يمكن تكوين كل مرحلة بشكل منفصل: تشغيل تقييم المسار فقط أو التقرير النهائي فقط أو الدورة الكاملة.

مثال: وكيل تخطيط السفر

كعرض توضيحي، تعرض AWS وكيلاً مكتوباً باستخدام Strands Agents SDK وعاملاً على Amazon Bedrock. يتلقى الوكيل طلب المستخدم — على سبيل المثال، "خطط رحلة مدتها سبعة أيام إلى طوكيو برصيد $2000" — يبحث عن الرحلات والفنادق من خلال أدوات خارجية ويحلل المعالم ويعيد خط سير الرحلة النهائي. يتحقق Agent-EvalKit من مثل هذا الوكيل عبر جميع الست مراحل: يتحقق من أن أداة البحث عن الرحلات تم استدعاؤها قبل البحث عن الفنادق، وأن الإجابة النهائية تحتوي على تواريخ وأسعار محددة، وأن الوكيل ظل ضمن الميزانية ولم يخترع رحلات غير موجودة. يكشف هذا الفحص عن أخطاء غير مرئية في الاختبار اليدوي العادي.

التكامل مع مساعدات الذكاء الاصطناعي

يكمن الفرق الأساسي لـ Agent-EvalKit عن نظيراتها في التكامل العميق مع مساعدات ترميز الذكاء الاصطناعي. يمكن لـ Claude Code و Kiro CLI و Kilo Code تشغيل التقييم مباشرة داخل بيئة عمل المطور دون التبديل إلى منصة منفصلة أو إعداد خط أنابيب منفصل. يتم توزيع الإطار بموجب رخصة Apache 2.0. الكود المصدري مفتوح على GitHub؛ توثق التوثيق أمثلة جاهزة لعدة أطر عمل ذكاء اصطناعي شهيرة.

"أردنا إنشاء بنية تحتية للتقييم يمكن للمطورين توصيلها في دقائق قليلة دون بنائها من الصفر"، كما كتب المؤلفون في مدونة AWS

Machine Learning.

ماذا يعني هذا

ظهور أداة تقييم موحدة هو خطوة مهمة نحو الاستخدام الصناعي لوكلاء الذكاء الاصطناعي. بدون القدرة على قياس أداء الوكيل بشكل منهجي على مهام حقيقية، من الصعب تبرير تطبيقه في عمليات العمل الحرجة. يوفر Agent-EvalKit منهجية ملموسة بدلاً من الاختبار اليدوي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

ما رأيك؟
جارٍ تحميل التعليقات…