AWS Machine Learning Blog→ المصدر

أطلقت AWS أداة ToolSimulator للاختبار الآمن لوكلاء الذكاء الاصطناعي في Strands Evals

أطلقت AWS أداة ToolSimulator — إطار عمل لاختبار وكلاء الذكاء الاصطناعي الذين يعملون مع أدوات خارجية. بدلاً من استدعاءات API الحقيقية، التي قد تسرب البيانات…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
أطلقت AWS أداة ToolSimulator للاختبار الآمن لوكلاء الذكاء الاصطناعي في Strands Evals
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت أمازون ويب سيرفسز (AWS) أداة ToolSimulator — إطار عمل لاختبار وكلاء الذكاء الاصطناعي الذين يعملون مع أدوات خارجية. بدلاً من استدعاءات محفوفة بالمخاطر لواجهات برمجية تطبيقات حقيقية، فإنها تستخدم نموذج لغة كبير لمحاكاة الاستجابات بشكل ديناميكي — بأمان وقابلية للتوسع وبدون تسريب البيانات. أي وكيل ذكاء اصطناعي يعرف كيفية استدعاء واجهات برمجية تطبيقات وقراءة قواعد البيانات أو إدارة الخدمات الخارجية يواجه نفس المشكلة عند الاختبار: كيف تتحقق من سلوك الوكيل دون التأثير على الإنتاج؟ الأساليب التقليدية لا تحلها بشكل كامل.

الاستدعاءات المباشرة لواجهات برمجية تطبيقات حقيقية خطيرة — قد يرسل الوكيل بريداً إلكترونياً عن طريق الخطأ أو ينشئ سجلاً في نظام إدارة العلاقات مع العملاء أو يسرب بيانات شخصية إلى خدمة خارجية. تعمل المحاكاة الثابتة للأشياء بشكل جيد للسيناريوهات البسيطة، لكنها تفشل في الحوارات متعددة الخطوات، حيث تؤثر استجابة الأداة على الطلب التالي للوكيل. اقترحت أمازون ويب سيرفسز طريقة ثالثة: ToolSimulator كجزء من مجموعة أدوات Strands Evals SDK.

يستخدم الإطار نموذج لغة كبير لإنشاء استجابات أداة واقعية — كما لو كانت واجهة برمجية التطبيقات الحقيقية تستجيب لطلب الوكيل. وفي الوقت نفسه، لا تذهب أي بيانات إلى أي مكان: كل شيء يحدث داخل بيئة اختبار معزولة. كيف يعمل في الممارسة العملية.

يصف المطور الأدوات التي يستخدمها الوكيل: مخططه والاستجابات الممكنة والحالات الحدية. يأخذ ToolSimulator هذه الأوصاف وعندما يستدعي الوكيل أداة أثناء الاختبار، ينتج استجابة معقولة. الوكيل لا يعرف أنه يعمل مع محاكي وليس مع خدمة حقيقية.

يسمح هذا باختبار السلاسل متعددة الخطوات: يحصل الوكيل على استجابة ويتخذ القرار التالي ويستدعي الأداة مرة أخرى — وهكذا في جميع أنحاء السيناريو. تغطي القدرات الرئيسية للإطار ثلاثة اتجاهات. الحجم: يتيح ToolSimulator لك تشغيل مئات سيناريوهات الاختبار بالتوازي — شيء سيكلفك كثيراً مع واجهات برمجية التطبيقات الحقيقية وسيرهق البنية التحتية.

تغطية الحالات الحدية: يمكنك محاكاة عدم توفر واجهة برمجية التطبيقات والاستجابات البطيئة وتنسيقات البيانات غير المتوقعة وأخطاء المصادقة — والتحقق من كيفية تصرف الوكيل في كل حالة. الأمان: لا توجد استدعاءات حقيقية — لا توجد خطورة من تسريب البيانات الشخصية أو الإجراءات غير المقصودة في الإنتاج. ToolSimulator متاح الآن كجزء من مجموعة أدوات Strands Evals SDK — مجموعة أدوات مفتوحة المصدر من AWS لتقييم جودة وكلاء الذكاء الاصطناعي.

Strands Agents هو إطار عمل وكيل جديد نسبياً من AWS؛ ظهرت Strands Evals كمكون مصاحب للاختبار. يوسع ToolSimulator مجموعة الأدوات هذه بحل لأحد أصعب المهام — الاختبار الموثوق للوكلاء مع التبعيات الحقيقية. تؤثر المشكلة على الصناعة بأكملها.

مع انتقال وكلاء الذكاء الاصطناعي من العرض التوضيحي إلى الإنتاج، تزداد متطلبات الموثوقية بشكل كبير. يجب أن يتصرف الوكيل الذي يدير البريد الإلكتروني أو نظام إدارة العلاقات مع العملاء أو المعاملات المالية بطريقة يمكن التنبؤ بها في أي ظروف — بما في ذلك عندما تتصرف الأدوات التي يعتمد عليها بشكل غير متوقع. قبل ظهور أساليب مثل ToolSimulator، كان على المطورين الاختيار بين التغطية غير الكاملة والمخاطر التي تشكلها استدعاءات واجهات برمجية التطبيقات الحقيقية في بيئة الاختبار.

بالنسبة لمطوري الوكلاء، يقلل ToolSimulator العائق أمام كتابة اختبارات شاملة حيث كان الأمر معقداً جداً أو خطيراً من قبل. ستتمكن الفرق من اكتشاف أخطاء التكامل بشكل أسرع والتحقق بشكل منهجي من الحالات الحدية وإطلاق وكلاء بثقة أكبر في سلوكهم. تتناسب الأداة مع اتجاه أوسع: مع نضج سوق الوكلاء، تظهر حلول متخصصة ليس فقط لإنشاء الوكلاء، بل أيضاً لاختبارهم وتقييمهم — وتراهن AWS على الاستيلاء على هذا المجال.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…