AWS Machine Learning Blog→ المصدر

AWS تكشف عن ActorSimulator لاختبار وكلاء AI متعددي الجولات في Strands Evals

قدمت AWS أداة ActorSimulator في Strands Evals، وهي أداة لاختبار وكلاء AI ليس على طلبات منفردة، بل في حوارات حية متعددة الجولات. ينشئ المحاكي بنفسه شخصية…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
AWS تكشف عن ActorSimulator لاختبار وكلاء AI متعددي الجولات في Strands Evals
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

عرضت AWS محاكي ActorSimulator — مكون من Strands Evaluations SDK يساعد في اختبار وكلاء الذكاء الاصطناعي في محادثات متعددة الأدوار مع مستخدمين محاكاة بشكل واقعي. بدلاً من أزواج ثابتة "سؤال-جواب"، تحصل الفرق على حوارات مُدارة مع شخصيات وأهداف وتفرعات طبيعية مع تقدم المحادثة.

لماذا هذا صعب

اختبار وكيل في دورة واحدة هو أمر بسيط نسبياً: توجد مدخلات، وتوجد استجابة، وتوجد مجموعة من المقاييس مثل helpfulness أو الاستخدام الصحيح للأدوات. لكن في المنتج الحقيقي، لا تنتهي المحادثة تقريباً برسالة واحدة. يوضح المستخدم طلبه، ويغير الاتجاه، ويعيد المحادثة إلى المهمة الأصلية أو يشعر بالإحباط إذا فقد الوكيل تفصيلاً مهماً.

لهذا السبب، لا يمكن تسجيل الدورة التالية مسبقاً في مجموعة بيانات الاختبار — فهي تعتمد على كل ما تم قوله سابقاً. الاختبار اليدوي يحل هذه المشكلة بشكل جزئي فقط. يمكن للفريق بالفعل تشغيل السيناريوهات يدوياً، لكن مئات المحادثات متعددة الأدوار بعد كل تحديث للوكيل تصبح سريعاً غير قابلة للإدارة.

محاولة استبدال هذا برموز بسيط مثل "تظاهر بأنك المستخدم" ينتج أيضاً نتائج ضعيفة: السلوك يتقلب من تشغيل إلى آخر، وتنهار الشخصية، ويصبح مقارنة الدرجات بين الإصدارات صعبة. تقترح AWS نهجاً أكثر تنظيماً حيث الواقعية لا تقتل القابلية للتكرار.

كيف يعمل المحاكي

ينشئ ActorSimulator مستخدماً محاكياً حول حالة اختبار. يتلقى طلباً أولياً وإذا أردت وصفاً للمهمة — على سبيل المثال، حجز رحلة ضمن ميزانية. بعد ذلك يبني LLM ملف تعريف الشخصية: أسلوب التواصل ومستوى الخبرة والصبر والسياق والهدف النهائي. بعد ذلك يدير المحاكي الحوار دورة تلو الأخرى ويحتفظ بسجل المحادثة في الذاكرة ويوّلد الرد التالي ليس من قالب بل وفقاً لمنطق ذلك المستخدم المحدد. تسلط AWS الضوء على عدة آليات عملية هنا:

  • التوليد التلقائي لملف تعريف مستخدم مستقر لسيناريو محدد
  • تتبع هدف المحادثة والتحقق من تحقيقه
  • إشارة توقف إذا تم حل المهمة أو الوكيل عالق أو تم استنزاف حد الأدوار
  • شرح منظم لسبب سؤال المحاكي هذا السؤال المحدد
  • القدرة على إدراج ملفات تعريف مخصصة للتحقق من قطاعات مستخدمين محددة

هذا مهم ليس فقط لأناقة السيناريو. إذا أجاب الوكيل على جزء فقط من الطلب، سيستمر المحاكي على طول الخط المفقود بدلاً من الانحراف عن الموضوع بشكل عشوائي. إذا طلب الوكيل توضيحاً، ستأتي الإجابة ضمن الشخصية المختارة. علاوة على ذلك، يصحب كل دورة تفكير منظم: يمكنك رؤية ما إذا كان المستخدم الآن يوضح فجوة أم يعبر عن ارتباك أم يحاول إعادة المحادثة للهدف. للتصحيح، هذا المستوى من الشفافية مفيد بشكل خاص.

التكامل في خط أنابيب

توضح AWS أنه يمكنك البدء بمجرد بضعة أسطر من الكود عبر حزمة `strands-agents-evals`. في المثال، يتم اختبار مساعد السفر: تُعرّف حالة (Case) مع طلب المستخدم، ثم ينشئ ActorSimulator حواراً متعدد الأدوار حتى يتم الوصول للهدف أو يصبح واضحاً أن الوكيل لا يستطيع التعامل معه أو يصل `max_turns`. يمكن الآن تحليل النصية الناتجة كجلسة متعددة الأدوار كاملة للتقييم بدلاً من مجموعة من الاستجابات المعزولة.

للتقييم في الإنتاج، يتصل هذا بـ OpenTelemetry وخريطة الجلسات في Strands Evals. تقترح AWS جمع spans في كل دورة، بما في ذلك استدعاءات الأدوات واستدعاءات النموذج والتوقيتات، ثم تمرير المسار بالكامل إلى المقيمين مثل HelpfulnessEvaluator و GoalSuccessRateEvaluator. بالإضافة إلى ذلك، يمكنك تعيين ملفات تعريف مخصصة يدوياً — على سبيل المثال خبير غير صبور أو مبتدئ — ورؤية حيث يفقد الوكيل باستمرار.

في توصياتها، تقترح AWS البدء بـ 3–5 أدوار للمهام البسيطة و 8–10 للسيناريوهات الأطول.

ماذا يعني هذا

يتحرك سوق وكلاء الذكاء الاصطناعي بسرعة بعيداً عن العروض التوضيحية برد واحد ناجح نحو التحقق المنظم من المسارات الحقيقية للمستخدمين. يعتبر ActorSimulator من AWS مهماً بالضبط لأنه يحول الحوارات متعددة الأدوار من ألم يدوي إلى جزء من خط أنابيب تقييم منتظم: مع شخصيات واضحة وأهداف قابلة للقياس وتتبع يمكنك من خلاله البحث عن الانحدارات قبل الإطلاق في الإنتاج.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…