AWS Machine Learning Blog→ المصدر

Amazon SageMaker وDVC: تتبّع شامل لنماذج ML من البيانات إلى التنبؤ

نشرت AWS دليلاً للتتبّع الشامل لنماذج ML باستخدام DVC وAmazon SageMaker AI وMLflow Apps. ويستعرض نمطين: lineage على مستوى dataset وعلى مستوى السجل الفردي…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
Amazon SageMaker وDVC: تتبّع شامل لنماذج ML من البيانات إلى التنبؤ
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

نشر مدونة AWS Machine Learning دليلاً تفصيلياً حول بناء تتبع شامل لنماذج ML — من البيانات الأولية إلى التنبؤ النهائي — باستخدام ثلاث أدوات: DVC و Amazon SageMaker AI و Amazon SageMaker AI MLflow Apps. المشكلة التي يعالجها المقال معروفة جيداً للفرق التي تعمل في الإنتاج: من غير الواضح بالضبط أي البيانات استُخدمت لتدريب نموذج معين، وما التحويلات التي تم تطبيقها عليها، وكيف أثر سجل فردي على التنبؤ. وهذا أمر بالغ الأهمية أثناء عمليات التدقيق وتصحيح الأخطاء المتعلقة بانجراف البيانات والامتثال للمتطلبات التنظيمية.

DVC (التحكم في إصدار البيانات) هو أداة مفتوحة المصدر تضيف إمكانية إصدار الملفات الكبيرة والمجموعات البيانية إلى Git. عند الدمج مع SageMaker، فإنها تتيح التقاط لقطة دقيقة من البيانات المستخدمة في كل عملية تدريب. SageMaker MLflow Apps، بدوره، يخزن المقاييس والمعاملات وعناصر التجارب — خادم MLflow قياسي يُدار بواسطة AWS دون الحاجة إلى نشر البنية التحتية يدوياً.

يصف المؤلفون نمطين محددين. الأول هو تتبع النسب على مستوى المجموعة البيانية: يتم تسجيل إصدار المجموعة البيانية (عبر علامة DVC)، معاملات خط أنابيب المعالجة والارتباط بالنموذج المُدرب في MLflow. الثاني هو تتبع النسب على مستوى السجل: كل سجل محدد من مجموعة التدريب مرتبط بالنموذج، مما يسمح بالإجابة على السؤال "أي الأمثلة بالضبط شكّلت هذا التنبؤ".

كلا النمطين مُنفذان كدفاتر Jupyter جاهزة للتشغيل في حسابك على AWS. تعمل البنية المعمارية كما يلي: يتم تخزين البيانات في S3 والتحكم في إصدارها بواسطة DVC، بيانات تعريف التجارب (المعاملات والمقاييس والعناصر) — في تطبيق MLflow، والاتصال بين إصدار البيانات وإصدار النموذج يتم توفيره من خلال العلامات المخصصة وعناصر DVC المسجلة في MLflow. تكمن القيمة العملية للنهج في قابلية الاستنساخ.

إذا تبين بعد ستة أشهر أن النموذج يتصرف بشكل غير متوقع على فئة معينة من المستخدمين، سيتمكن المهندسون من استعادة بدقة المجموعة البيانية التي تم تدريبه عليها، والسجلات التي تضمنتها، ومعاملات التشعب التي تم تشغيل التدريب بها. المقال موجه نحو مهندسي ML وفرق MLOps التي تعمل بالفعل في نظام AWS البيئي. تقلل الدفاتر الجاهزة بشكل كبير من حاجز الدخول: لا حاجة لتصميم التكامل من الصفر — يكفي تكييف الأمثلة مع مجموعتك البيانية وخط أنابيب المعالجة.

بالنسبة للشركات التي تعتبر القابلية للتدقيق من نماذج ML مهمة — خاصة في القطاع المالي والطب والمشاريع الحكومية — يصبح مثل هذا النهج معياراً فعلياً. تقوم AWS بنحو ثابت ببناء مجموعة أدوات تتوقف فيها النسبة عن كونها "ممارسة جيدة" اختيارية وتصبح خاصية مدمجة في خط الأنابيب.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…