لقطة NVIDIA Dynamo: تسريع بدء تشغيل النماذج على Kubernetes

قدمت NVIDIA أداة Dynamo Snapshot لتسريع البدء البارد لنماذج الاستدلال على Kubernetes. خلال فترات الذروة في الطلب، غالباً ما تستغرق النسخ الجديدة دقائق للتحميل، مما يترك معالجات GPU معطلة ويخاطر بانتهاك اتفاقية مستوى الخدمة (SLA). تقلل الأداة الجديدة وقت التحميل من دقائق إلى ثوان.

Khamidun Zhemal

رصد الذكاء الاصطناعي · NVIDIA Developer Blog

31 مايو 2026· 2 د

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News

لقطة NVIDIA Dynamo: تسريع بدء تشغيل النماذج على Kubernetes — المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.

◐ استمع للمقال

في بيئة الإنتاج، يتغير الطلب على نماذج الذكاء الاصطناعي باستمرار، وتحتاج الشركات إلى توسيع عدد النسخ التي تخدمها بسرعة. لكن بدء تشغيل نسخة جديدة من النموذج على Kubernetes قد يستغرق عدة دقائق - وطوال هذا الوقت، تنتظر معالجات GPU المكلفة ببساطة، دون خدمة الطلبات.

مشكلة البدء البارد

البدء البارد (cold start) هو اللحظة التي يجب فيها على نسخة جديدة من نموذج الاستدلال أن تحمل وتصبح جاهزة للعمل. في الأنظمة القابلة للتوسع، قد تكون هذه عملية بطيئة. عندما يأتي ذروة حركة المرور، يكتشف أداة التوسيع التلقائي في Kubernetes الحمل المتزايد وينشئ نسخاً جديدة من النموذج. لكن كل نسخة تحتاج إلى:

تحميل صورة الحاوية من القرص
فك ضغط جميع طبقات صورة Docker
تهيئة بيئة التشغيل والإطار العمل
تحميل أوزان الشبكة العصبية في ذاكرة GPU
ترجمة وتحسين النموذج للأجهزة المستهدفة

يمكن لكل هذا أن يستغرق من 30 ثانية إلى عدة دقائق. وأثناء حدوث ذلك، يتم تخصيص GPU لكن تبقى معطلة، دون خدمة الطلبات. النتيجة: تزداد زمن التأخير، وتنخفض النطاقية الترددية، وتخاطر الشركات بانتهاك اتفاقية مستوى الخدمة (SLA). بالنسبة لعملاء الشركات الذين يستخدمون خدمات السحابة، كل دقيقة من التوقف قد تكلف آلاف الدولارات.

Dynamo Snapshot: بدء سريع بدلاً من التهيئة

قدمت NVIDIA أداة Dynamo Snapshot التي تسمح بالانتقال من دقائق التحميل إلى ثوان. بدلاً من تهيئة النموذج من الصفر في كل مرة، ينشئ Dynamo لقطة من حالة الحاوية الجاهزة بالفعل - بما في ذلك أوزان النموذج المحملة، بيئة التشغيل المهيأة والتحسينات المخزنة مؤقتاً. عندما تكون هناك حاجة إلى نسخة جديدة، لا تبدأ النظام بتنزيل الصورة وفك ضغط الطبقات. بدلاً من ذلك، تستعيد الحالة المحفوظة مباشرة في ذاكرة GPU. يعمل هذا بسرعة أكبر بكثير، لأن جميع العمليات مرتفعة التكلفة (تحميل النماذج، والترجمة، والتحسين) تمت بالفعل مرة واحدة وتُعاد فقط.

المميزات الأساسية لـ Dynamo:

تحميل النماذج في ثوان بدلاً من دقائق
تقليل توقف GPU أثناء التوسيع
تأخيرات قابلة للتنبؤ والمستقرة عند ذروة الطلب
توفير في غرامات انتهاك SLA
الاستخدام الفعال للمعدات المكلفة

تعمل الأداة على مستوى Kubernetes وتتكامل مع أنظمة التوسيع الموجودة، دون الحاجة إلى إعادة تصميم التطبيقات.

التأثير الاقتصادي

بالنسبة للشركات التي تشغل نماذج الاستدلال في السحابة، فهذا يعني انخفاضاً كبيراً في تكلفة التوسع. إذا كان في السابق ذروة حركة المرور بنسبة 50% تتطلب الحفاظ على معالجات GPU احتياطية فقط من أجل التوسع السريع (في حالة الطلب)، فيمكن الآن التوسع تقريباً حسب الطلب - دون الحاجة إلى صيانة المعدات المتعطلة. هذا مفيد بشكل خاص للتطبيقات ذات حركة المرور غير المتوقعة، حيث لا يمكن التنبؤ بالذروات. الارتفاعات الموسمية في الطلب، واللحظات الفيروسية على وسائل التواصل الاجتماعي، والطلبات غير المتوقعة الشهيرة - يمكن الآن خدمة كل هذا بمرونة واقتصادية. تنخفض تكاليف الحفاظ على الطاقة الاحتياطية، وتختفي التأخيرات عند التوسع بشكل كبير.

ماذا يعني هذا

يوضح Dynamo Snapshot كيف يمكن لتحسينات البنية التحتية أن تقلل بشكل مباشر من تكلفة خدمات الذكاء الاصطناعي. مع تنافس الشركات على تكلفة الاستدلال، تصبح سرعة وكفاءة التوسع ميزة تنافسية حقيقية. بالنسبة للمطورين، هذا يعني أنه يمكن الآن تشغيل النماذج الكبيرة، التي كانت تتطلب سابقاً مجموعة GPU "دافئة"، وتوسيع نطاقها حسب الطلب.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية