AWS Machine Learning Blog→ المصدر

AWS عرضت كيفية بناء offline feature store في SageMaker Unified Studio وCatalog

أصدرت AWS دليلاً عملياً لبناء offline feature store في SageMaker Unified Studio. ترتكز البنية على SageMaker Catalog ونموذج publish-subscribe: ينشر منتجو…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
AWS عرضت كيفية بناء offline feature store في SageMaker Unified Studio وCatalog
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

نشرت Amazon Web Services دليلاً عملياً لبناء offline feature store بالاعتماد على SageMaker Unified Studio و SageMaker Catalog. والفكرة هي أن تنشر فرق البيانات feature tables مُحضَّرة ومُصدَّرة بإصدارات مرة واحدة، بحيث تتمكن فرق ML من العثور عليها بأمان وإعادة استخدامها في نماذج جديدة.

كيف تعمل البنية

في قلب هذا النهج يوجد نموذج publish-subscribe داخل نطاق SageMaker Unified Studio. يقوم منتجو البيانات بتجميع features من مجموعات البيانات التشغيلية، ويحوّلونها إلى صيغة مناسبة لـ ML، ثم ينشرونها كـ feature tables في SageMaker Catalog. وبعد ذلك، لا تعود features محصورة في notebooks محلية لدى أشخاص بعينهم أو في pipelines أحادية الاستخدام. بل تصبح أصلاً منظماً له وصف ومالك وإصدار، ويمكن إعادة استخدامه في التدريب والتحقق والتجارب.

وبالنسبة إلى offline feature store، يُعد هذا تحولاً مهماً. فبدلاً من نسخ الجداول بين الفرق، تقترح AWS طبقة مفهرسة يبدو فيها كل نشر كأنه منتج بيانات مُدار. ولم يعد الفريق الذي يدرب النموذج بحاجة إلى إعادة معرفة كيف جرى حساب features وأي إصدار استُخدم في تجربة سابقة. ويكفي العثور على الجدول المطلوب، والاشتراك فيه، وربطه بمسار التطوير الخاص به.

ومن المهم أن AWS تصف هذا السيناريو تحديداً بوصفه تنفيذاً خطوة بخطوة داخل نطاق Unified Studio. أي أن الحديث ليس عن خدمات متفرقة يجب وصلها يدوياً ببعضها، بل عن مساحة عمل أكثر تكاملاً. وبالنسبة إلى الفرق المؤسسية، فهذا يقلل عتبة التبني: إذ يمكن بناء feature store كجزء من عملية تطوير النماذج القياسية، لا كمشروع بنية تحتية منفصل يعيش وحده ويتطلب دعماً يدوياً مستمراً.

الأدوار والوصول

وتظهر في المادة بوضوح منطق فصل الأدوار. فبعض الفرق مسؤولة عن إنتاج features وجودة الجداول ودورة حياتها. وتعمل فرق أخرى كمستهلكين: تبحث عن المجموعات الجاهزة، وتحصل على الوصول وفق قواعد النطاق، وتستخدمها في العمل على النماذج. ويقلل هذا المخطط من الفوضى التي تظهر عادة عندما يحتفظ كل data scientist بنسخته الخاصة من features نفسها.

  • نشر feature tables المُحضَّرة
  • إصدار النسخ وإعادة الاستخدام
  • البحث عبر فهرس موحّد
  • الاشتراك بدلاً من النقل اليدوي للملفات
  • التحكم في الوصول داخل بيئة مشتركة

ولا تقل أهمية الاكتشاف الآمن هنا عن أهمية التخزين نفسه. فإذا كانت feature tables مرئية فقط لمؤلفيها، فلن يظهر أي أثر للتوسع. وإذا فُتح الوصول على نطاق واسع أكثر من اللازم، تظهر سريعاً مخاطر الجودة والامتثال. وهنا تحاول منظومة Unified Studio و Catalog الحفاظ على هذا التوازن: منح الفرق واجهة مشتركة للfeatures مع الإبقاء على آلية مُدارة للاشتراك والوصول.

لماذا تهم الإصدارات

تُعد إدارة الإصدارات عنصراً أساسياً في هذه البنية كلها. ففي مشاريع ML، حتى التغيير البسيط في منطق حساب feature ما يمكن أن يؤثر بوضوح في جودة النموذج، ثم يعقّد قابلية إعادة إنتاج النتائج. وعندما تُنشر feature table كإصدار مستقل، يحصل الفريق على نقطة مرجعية: يمكنه فهم أي features استُخدمت في تدريب محدد، ومقارنة النسخة القديمة بالجديدة، وعدم كسر pipelines الخاصة بالآخرين مع كل تحديث. وبالنسبة إلى التطوير الناضج، فهذا عملي أكثر بكثير من النسخ التي لا تنتهي من الجداول ذات اللواحق مثل final_v2_really_final.

ويتضح من وصف AWS أن offline feature store هنا لا يُقدَّم بوصفه مستودع جداول منفصلاً، بل كطبقة تنظيمية للعمل المشترك. فهو يجمع إعداد البيانات والنشر والفهرسة وإعادة الاستخدام داخل نطاق واحد. وبالنسبة إلى الشركات التي يعمل فيها data engineers و analysts و data scientists على النماذج في الوقت نفسه، فإن هذا يزيل كثيراً من التنسيق الزائد ويساعد على نقل features الناجحة من حالة استخدام إلى أخرى بسرعة أكبر.

ماذا يعني ذلك

تراهن AWS على أن feature engineering يجب ألا يكون حرفة تمارسها فرق منفردة، بل خدمة داخلية مُدارة. وإذا ترسخ نهج publish-subscribe، فسيصبح من الأسهل على الشركات توسيع تطوير ML: عدد أقل من التكرارات، وقابلية أفضل لإعادة الإنتاج، ومسار أسرع من feature مُحضَّرة إلى نموذج جديد.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…