AWS Machine Learning Blog→ المصدر

سرّعت AWS خطوط أنابيب ML في SageMaker Feature Store بثلاث قدرات جديدة

قدّمت AWS ثلاثة تحسينات في SageMaker Feature Store: Lake Formation للتحكم في الوصول إلى البيانات، ودعم Iceberg لتحسين قابلية التوسع، وتحسين خطوط أنابيب التعلم ا

سرّعت AWS خطوط أنابيب ML في SageMaker Feature Store بثلاث قدرات جديدة
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

أعلنت AWS عن ثلاث قدرات جديدة في SageMaker Feature Store، المتاحة في Python SDK الإصدار 3.8.0. يهدف التحديث إلى تسريع وتبسيط إنشاء خطوط أنابيب ML، خاصة للفرق التي تدير أحجاماً كبيرة من الميزات.

لماذا هذا مهم

SageMaker Feature Store هو خدمة متخصصة لإدارة ميزات ML. وهو مستودع يسحب النماذج البيانات منه للتدريب والاستدلال. قد يبدو للوهلة الأولى أنه يمكنك ببساطة تخزين البيانات في S3، لكن الأمر ليس كذلك. تحتاج الميزات إلى التحويل والإصدار والمزامنة عبر النماذج. لهذا السبب يقضي مهندسو ML 60–80% من وقتهم على تجهيز البيانات. يسمح مستودع الميزات المناسب بإعادة استخدام البيانات، ويمنع تسرب المعلومات بين مجموعات التدريب والاختبار، ويتيح العودة السريعة إذا تضررت البيانات.

استخدمت شركات كبيرة مثل Intuit و T-Mobile AWS Feature Store، لكن المنصة تطلبت إدارة وصول يدوية وأصبحت معقدة في الحجم الكبير. تعالج القدرات الثلاث الجديدة هذه المشاكل.

ما تم إضافته في v3.8.0

يتضمن التحديث التكامل مع AWS Lake Formation ودعم Apache Iceberg وتحسين خطوط الأنابيب:

  • Lake Formation governance — إدارة الوصول على مستوى Feature Store. يمكنك الآن تحديد أعضاء الفريق الذين يشاهدون الميزات، دون نسخ أو تقسيم البيانات يدويًا
  • دعم Apache Iceberg — تنسيق جدول مفتوح مع إصدار مدمج. يتسع بشكل أفضل إلى البيتابايت، وأسهل في العودة للبيانات الخاطئة، لا حاجة لإعادة كتابة الجدول بأكمله عند تغيير المخطط
  • تحسينات خط الأنابيب — تحميل أسرع للميزات، توازي العمليات، تقليل كمون الاستدلال

في الممارسة العملية

سيناريو نموذجي: لديك 50 نموذج في الإنتاج، يحتاج كل منها إلى ميزات — عمر العميل، سجل الشراء، مبلغ آخر معاملة. في الماضي، كان كل نموذج يعد بياناته الخاصة، مما أدى إلى أخطاء وتكرار. مع Feature Store، تحدد الفريق الميزات مرة واحدة في مكان مركزي. ثم تسحب جميع النماذج البيانات من هناك وتضمن رؤية نفس الشيء. إذا ارتكب مهندس خطأ وحمل بيانات سيئة، يمكنك العودة للخلف بأمر واحد. يساعد Lake Formation على تطبيق السياسات الشركاتية تلقائياً. على سبيل المثال: فرق المالية ترى جميع الميزات، والتسويق يرى فقط الميزات المجهولة الهوية. يجعل Iceberg العودة سريعة — لا حاجة لتحميل وإعادة كتابة غيغابايتات.

"إدارة البيانات في ML هي إدارة الثقة. النماذج التي تتلقى بيانات سيئة

تصنع توقعات سيئة"، كما يقول مهندسو AWS.

ما تعنيه هذه الخطوة

تصبح منصات ML السحابية أكثر نضجاً. تنتقل AWS من "هنا لديك الحساب والشبكة" إلى تخزين البيانات المُدار مع الإصدار والوصول والسياسات. بالنسبة للشركات، هذا يعني أن الاستثمارات في البنية التحتية السحابية تؤتي ثمارها ليس فقط من خلال تقليل تكاليف الخادم، بل من خلال سرعة التطوير. يقضي مهندسو ML وقتاً أقل في كتابة رموز تحويل البيانات والمزيد من الوقت في العمل على النماذج.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…