NVIDIA Developer Blog→ المصدر

لقطة NVIDIA Dynamo: تسريع بدء تشغيل النماذج على Kubernetes

قدمت NVIDIA أداة Dynamo Snapshot لتسريع البدء البارد لنماذج الاستدلال على Kubernetes. خلال فترات الذروة في الطلب، غالباً ما تستغرق النسخ الجديدة دقائق للتحميل،

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
لقطة NVIDIA Dynamo: تسريع بدء تشغيل النماذج على Kubernetes
المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.
◐ استمع للمقال

في بيئة الإنتاج، يتغير الطلب على نماذج الذكاء الاصطناعي باستمرار، وتحتاج الشركات إلى توسيع عدد النسخ التي تخدمها بسرعة. لكن بدء تشغيل نسخة جديدة من النموذج على Kubernetes قد يستغرق عدة دقائق - وطوال هذا الوقت، تنتظر معالجات GPU المكلفة ببساطة، دون خدمة الطلبات.

مشكلة البدء البارد

البدء البارد (cold start) هو اللحظة التي يجب فيها على نسخة جديدة من نموذج الاستدلال أن تحمل وتصبح جاهزة للعمل. في الأنظمة القابلة للتوسع، قد تكون هذه عملية بطيئة. عندما يأتي ذروة حركة المرور، يكتشف أداة التوسيع التلقائي في Kubernetes الحمل المتزايد وينشئ نسخاً جديدة من النموذج. لكن كل نسخة تحتاج إلى:

  • تحميل صورة الحاوية من القرص
  • فك ضغط جميع طبقات صورة Docker
  • تهيئة بيئة التشغيل والإطار العمل
  • تحميل أوزان الشبكة العصبية في ذاكرة GPU
  • ترجمة وتحسين النموذج للأجهزة المستهدفة

يمكن لكل هذا أن يستغرق من 30 ثانية إلى عدة دقائق. وأثناء حدوث ذلك، يتم تخصيص GPU لكن تبقى معطلة، دون خدمة الطلبات. النتيجة: تزداد زمن التأخير، وتنخفض النطاقية الترددية، وتخاطر الشركات بانتهاك اتفاقية مستوى الخدمة (SLA). بالنسبة لعملاء الشركات الذين يستخدمون خدمات السحابة، كل دقيقة من التوقف قد تكلف آلاف الدولارات.

Dynamo Snapshot: بدء سريع بدلاً من التهيئة

قدمت NVIDIA أداة Dynamo Snapshot التي تسمح بالانتقال من دقائق التحميل إلى ثوان. بدلاً من تهيئة النموذج من الصفر في كل مرة، ينشئ Dynamo لقطة من حالة الحاوية الجاهزة بالفعل - بما في ذلك أوزان النموذج المحملة، بيئة التشغيل المهيأة والتحسينات المخزنة مؤقتاً. عندما تكون هناك حاجة إلى نسخة جديدة، لا تبدأ النظام بتنزيل الصورة وفك ضغط الطبقات. بدلاً من ذلك، تستعيد الحالة المحفوظة مباشرة في ذاكرة GPU. يعمل هذا بسرعة أكبر بكثير، لأن جميع العمليات مرتفعة التكلفة (تحميل النماذج، والترجمة، والتحسين) تمت بالفعل مرة واحدة وتُعاد فقط.

المميزات الأساسية لـ Dynamo:

  • تحميل النماذج في ثوان بدلاً من دقائق
  • تقليل توقف GPU أثناء التوسيع
  • تأخيرات قابلة للتنبؤ والمستقرة عند ذروة الطلب
  • توفير في غرامات انتهاك SLA
  • الاستخدام الفعال للمعدات المكلفة

تعمل الأداة على مستوى Kubernetes وتتكامل مع أنظمة التوسيع الموجودة، دون الحاجة إلى إعادة تصميم التطبيقات.

التأثير الاقتصادي

بالنسبة للشركات التي تشغل نماذج الاستدلال في السحابة، فهذا يعني انخفاضاً كبيراً في تكلفة التوسع. إذا كان في السابق ذروة حركة المرور بنسبة 50% تتطلب الحفاظ على معالجات GPU احتياطية فقط من أجل التوسع السريع (في حالة الطلب)، فيمكن الآن التوسع تقريباً حسب الطلب - دون الحاجة إلى صيانة المعدات المتعطلة. هذا مفيد بشكل خاص للتطبيقات ذات حركة المرور غير المتوقعة، حيث لا يمكن التنبؤ بالذروات. الارتفاعات الموسمية في الطلب، واللحظات الفيروسية على وسائل التواصل الاجتماعي، والطلبات غير المتوقعة الشهيرة - يمكن الآن خدمة كل هذا بمرونة واقتصادية. تنخفض تكاليف الحفاظ على الطاقة الاحتياطية، وتختفي التأخيرات عند التوسع بشكل كبير.

ماذا يعني هذا

يوضح Dynamo Snapshot كيف يمكن لتحسينات البنية التحتية أن تقلل بشكل مباشر من تكلفة خدمات الذكاء الاصطناعي. مع تنافس الشركات على تكلفة الاستدلال، تصبح سرعة وكفاءة التوسع ميزة تنافسية حقيقية. بالنسبة للمطورين، هذا يعني أنه يمكن الآن تشغيل النماذج الكبيرة، التي كانت تتطلب سابقاً مجموعة GPU "دافئة"، وتوسيع نطاقها حسب الطلب.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…