Habr AI→ المصدر

أطلقت Mentorpiece دورة مجانية حول الاختبار غير الوظيفي لتطبيقات AI

أطلقت Mentorpiece دورة مجانية حول الاختبار غير الوظيفي لتطبيقات AI. يتضمن البرنامج اختبار التكلفة وقابلية التتبع والموثوقية والخصوصية، والتحقق من وكلاء AI…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أطلقت Mentorpiece دورة مجانية حول الاختبار غير الوظيفي لتطبيقات AI
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت شركة Mentorpiece دورة تدريبية مجانية تمهيدية حول الاختبارات غير الوظيفية لتطبيقات الذكاء الاصطناعي. ينطلق مؤلفو الدورة من فكرة بسيطة: بالنسبة للمنتجات المستندة إلى النماذج، فإن جودة الإجابة وحدها لم تعد كافية، لأن تجربة المستخدم الشاملة تتأثر بالتكلفة والتأخير وعدم الاستقرار والغموض في النماذج نفسها.

لماذا الذكاء الاصطناعي أكثر تعقيداً

في تطوير البرمجيات الكلاسيكي، غالباً ما يتم تأجيل الفحوصات غير الوظيفية حتى الإطلاق أو حتى بعد المستخدمين الأوائل. مع تطبيقات الذكاء الاصطناعي، يؤدي هذا النهج بسرعة إلى إلحاق الضرر بالمنتج. حتى إذا بدا السيناريو يعمل بشكل صحيح في النسخة التجريبية، فقد تظهر قيود مختلفة تماماً في الإنتاج: تكاليف الرموز غير المستقرة، تأخير غير مستقر، حدود الموفر، إجابات فارغة أو تدهور الجودة على البيانات الحقيقية. بالنسبة للفريق، هذه لم تعد تفاصيل ثانوية—بل أصبحت جزءاً من الفحص الأساسي لما إذا كان بإمكان الوظيفة أن تعمل على الإطلاق في الإنتاج.

مشكلة منفصلة هي القابلية للتتبع. يبقى نموذج الذكاء الاصطناعي صندوقاً أسود حتى بالنسبة للفريق الذي طبقه: تدخل مجموعة بيانات واحدة، وتخرج إجابة، لكن المنطق بالداخل مخفي. تشرح المقالة هذا من خلال صورة الإجابة "42" من "دليل المسافر عبر درب التبانة": هناك نتيجة، لكن لماذا تكون بالضبط بهذا الشكل غير واضح. إذا لم يتم إنشاء اختبارات القابلية للتتبع، فإن المنتج سرعان ما يبدأ في إرجاع نتائج يصعب شرحها وإعادة إنتاجها وتحسينها.

حالات واقعية من الممارسة

أحد أكثر الأمثلة لفتاً للنظر في المقالة هو اختبار التكلفة. قارنت فريق نموذجين للدور الأساسي في التطبيق: النموذج A الشهير والنموذج B الأقل شهرة. وفقاً لنتائج الاختبار، أنتج النموذج A 63% أخطاء أكثر من النموذج B. في الوقت نفسه، كانت رموز الإدخال الخاصة به تكلف 75 دولاراً لكل مليون، بينما كان النموذج B يكلف 3.75 دولار. بمعنى آخر، تبين أن النموذج الأرخص ليس حلاً وسطاً، بل كان الخيار الأفضل من حيث السعر والجودة معاً.

"النموذج B أرخص بـ 20 مرة مع دقة أفضل بكثير."

الحالة الثانية تتعلق بالموثوقية تحت الحمل. استخدم أحد تطبيقات الذكاء الاصطناعي ثلاثة نماذج من ثلاثة موفرين مختلفين في نفس الوقت. بينما كانت عشرات الاختبارات الآلية تعمل بالتوازي، كان النظام يتصرف بشكل طبيعي. لكن بعد تجاوز مئة اختبار متزامن، بدأت الأعطال: بدأ أحد النماذج في إرجاع خطأ 429 Too Many Requests بشكل منتظم، بينما أعاد النموذج الآخر إخراجاً فارغاً بدون خطأ صريح في حوالي 10% من الحالات. بالنسبة للمستخدم، يبدو هذا وكأنه عطل عشوائي، لكن بالنسبة لفريق الجودة، إنه إشارة إلى أن اختبارات الحمل والموثوقية إلزامية هنا.

ما الذي يتضمنه الدورة

تم تصميم دورة Mentorpiece كنظرة عامة تمهيدية لمختبري البرامج الذين لم يعملوا بعد مع تطبيقات الذكاء الاصطناعي لكنهم يريدون فهم سريع لمكان وجود المخاطر الجديدة. لا تحاول المادة إغراق القارئ بتفاصيل رياضية معقدة للنماذج. بدلاً من ذلك، تجمع بين المجالات الرئيسية للاختبار التي تؤثر في أغلب الأحيان على إطلاق وتشغيل ميزات الذكاء الاصطناعي في منتج حقيقي.

  • اختبار التكلفة ومقارنة النماذج حسب السعر ومعدلات الخطأ
  • اختبار القابلية للتتبع وتحليل الصندوق الأسود
  • اختبارات الموثوقية والمرونة والسلوك تحت الحمل
  • اختبارات الخصوصية وتسرب البيانات
  • النهج لاختبار وكلاء الذكاء الاصطناعي وRAG والنماذج المضبوطة بدقة والبيانات وسيناريوهات LLM-as-a-Judge

يثير المؤلفون بشكل منفصل المسألة العملية لاختيار النموذج. أطروحتهم بسيطة: لا يمكن الوثوق بالمعايير العامة بعمى، لأن المنتج الحقيقي يعمل على بيانات خاصة به، مع قيود خاصة به على الميزانية والسرعة ومستويات الخطأ المقبولة.

الدورة متاحة بالمجان، والتسجيل مطلوب فقط لحفظ التقدم. بالإضافة إلى منصة Mentorpiece، تم نشره أيضاً على Stepik.

ماذا يعني هذا

يخرج موضوع اختبار الذكاء الاصطناعي بسرعة من حالة التخصص الضيق. حتى الفرق التي لا تبني نماذجها الخاصة يتعين عليها بالفعل اختبار سلوك نماذج اللغة الكبرى الخارجية كجزء من المنتج: تتبع التكاليف واكتشاف التدهور ومراقبة الأعطال وفهم سبب إجابة النظام بهذه الطريقة. دورة Mentorpiece المجانية هي محاولة لتوفير خريطة أساسية لهذه المنطقة الجديدة، حيث تصبح الاختبارات غير الوظيفية ليست مكملة، بل شرطاً لتشغيل خدمة الذكاء الاصطناعي بشكل طبيعي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…