تعرض AWS خمسة أنماط لتقييم وكلاء الذكاء الاصطناعي العميقة
نشرت AWS دليلاً لتقييم وكلاء الذكاء الاصطناعي العميقة. تغطي المقالة خمسة أنماط تقييم وتوضح كيفية تكوين الاختبارات غير المتصلة بالإنترنت مع pytest و LangSmith، ب

نشرت AWS و LangSmith دليلاً شاملاً لتقييم وكلاء الذكاء الاصطناعي العميقة—وهي أنظمة مستقلة تحل المهام متعددة الخطوات بشكل مستقل، وتقوم بالاستدلال واتخاذ القرارات على طول الطريق.
معايير التقييم الخمسة
الخلاصة الرئيسية من AWS: تقييم الوكيل بمقياس واحد فقط غير صحيح. تحتاج إلى نهج شامل. تقترح الشركة خمسة اتجاهات للتقييم، كل منها يكشف جوانب مختلفة من التشغيل:
- صحة النتيجة — هل قدم الوكيل الإجابة النهائية الصحيحة على سؤال المستخدم
- مسار الحل — أي طريق اختار الوكيل، هل الخطوات منطقية، هل توجد أخطاء واضحة في التفكير
- إدارة الأدوات — أي واجهات برمجية وخدمات وقواعس بيانات استدعاها الوكيل، هل استخدمها بكفاءة
- الأمان والامتثال — هل التزم الوكيل بسياسات الوصول، هل بقي ضمن حدود الإجراءات المسموحة
- شفافية القرارات — هل يمكن للمطور أن يفهم منطق كل قرار من قرارات الوكيل
في النماذج الأولية المبكرة، ينصب التركيز على الصحة والاتساق المنطقي. في النظام الإنتاجي، خاصة إذا كان حرجاً، ينتقل الأولوية إلى الأمان والمراقبة والقدرة على شرح كل قرار من قرارات الوكيل.
الاختبار غير المتصل والمراقبة المباشرة
تصف AWS نهجاً على مستويين: التحكم قبل النشر والتحكم بعد النشر. المستوى الأول هو الاختبار غير المتصل في وضع التطوير. تكتب اختبارات في pytest، حيث تعطي الوكيل بيانات إدخال محددة مسبقاً وتتحقق مما إذا كان ينتج الإجابة الصحيحة. هذا اختبار وحدة كلاسيكي، لكن لأنظمة الذكاء الاصطناعي: مجموعة من الأسئلة، نتائج متوقعة، التحقق من التطابقات.
تكمل LangSmith هذا بتتبع آثار الاستدعاءات. عندما يعمل الوكيل، تسجل الأداة كل خطوة: أي أسئلة فرعية طرحها الوكيل على نفسه، أي خدمات استدعاها، كيف انتقل من خطوة إلى أخرى. إذا كانت النتيجة غير صحيحة، يمكنك رؤية بالضبط حيث حدث الخطأ وإصلاحه.
يتم تفعيل المستوى الثاني بعد نشر الإنتاج. عندما يعمل الوكيل مع المستخدمين الحقيقيين، تستمر LangSmith في المراقبة. يتابع النظام المقاييس في الوقت الفعلي: وقت استجابة الطلب، نسبة الأخطاء، معدل نجاح التنفيذ، مدة كل خطوة وسيطة. إذا بدأت المقاييس في التدهور، يتم تفعيل التنبيه تلقائياً.
وكيل Text-to-SQL كمثال كامل
بنت AWS وكيل توضيحي يترجم اللغة الطبيعية إلى استعلامات SQL لقواعد البيانات. يكتب المستخدم: "أظهر لي أفضل 10 عملاء حسب حجم المبيعات في هذا الربع،" يحلل الوكيل الطلب، ويشكل أمر SQL، ينفذه على قاعدة البيانات ويعيد جدول النتائج. يغطي هذا المثال جميع معايير التقييم الخمسة بالكامل: صحة النتيجة النهائية، منطق الخطوات، اختيار الأدوات الضرورية (أي جداول يتم الاستعلام عنها)، الأمان (عدم تجاوز حدود الوصول لبيانات متاحة)، والقدرة على فهم السبب في أن الوكيل شكل أمر SQL معين هذا.
يتم نشر الوكيل على Amazon Bedrock—خدمة سحابية مدارة للعمل مع نماذج اللغات الكبيرة. يتعامل Bedrock مع توسع البنية التحتية، وتحمل الأعطال، والامتثال الأمني. يركز المطور على منطق الوكيل، يضمن Bedrock الموثوقية والأداء.
ماذا يعني هذا
حتى الآن، كان تقييم أنظمة الذكاء الاصطناعي المعقدة فناً أكثر من كونه علماً: تقوم بتشغيل الوكيل، تنظر إلى النتيجة، تخمن لماذا حدث هذا أو ذاك. تجلب AWS و LangSmith التفكير الهندسي. عندما تتمكن من رؤية المسار الكامل لقرارات الوكيل والتحقق منها خطوة بخطوة، يصبح من الممكن ليس فقط اكتشاف خطأ، بل منعه في مرحلة التطوير. بالنسبة للأنظمة الكبيرة والحرجة—حيث يدير الوكيل المدفوعات، يتحكم في الوصول إلى البيانات السرية، أو يتخذ قرارات تجارية مهمة—ينتقل هذا من فئة "سيكون من الجيد أن يكون لديها" إلى فئة "إلزامي".