نماذج اللغات الكبيرة في Kubernetes: ترويض GPU دون إفلاس الأجهزة
الحماس من استخدام واجهات برمجة التطبيقات العامة يتلاشى تدريجياً في الكابوس المرير لقسم الخزانة بالشركات. عندما تبدأ للتو في تطبيق الذكاء الاصطناعي، يبدو أن…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
الحماس من استخدام واجهات برمجة التطبيقات العامة يتلاشى تدريجياً في الكابوس المرير لقسم الخزانة بالشركات. عندما تبدأ للتو في تطبيق الذكاء الاصطناعي، يبدو أن دفع OpenAI لكل رمز فكرة عظيمة. ولكن بمجرد زيادة الحمل وتصبح مخاوف أمان البيانات ملحة، تبدأ الشركات في النظر نحو بنيتها التحتية الخاصة. وهنالك يصبح واضحاً أن شراء عشرة وحدات H100 فقط غير كافٍ. تحتاج إلى جعلهم يعملون بتناسق، وعدم البقاء في حالة خمول، وعدم التحول إلى نظام تدفئة باهظ الثمن للمكتب. قررت مهندسو Nova AI السير في طريق أقل مقاومة للحس السليم وحزموا نشر نماذج اللغات الكبيرة في Kubernetes.
المشكلة أن Kubernetes لم يتم تصميمه في الأصل للعمل مع الشبكات العصبية. إنه يتعامل بشكل جيد مع الخدمات الصغيرة التي تستهلك حداً أدنى من الذاكرة، لكنه يفشل أمام العمالقة التي تزن مئات الجيجابايت. إذا ألقيت LLM ببساطة في حاوية قياسية، ستكتشف أن جدولة المهام توزع الموارد بشكل غير فعال. ستكون وحدة معالجة الرسومات الواحدة محملة بنسبة مائة في المائة بينما تبقى ثلاث وحدات جار خاملة، بينما تدفع الشركة إيجار الرف. تحاول Nova AI حل هذه المشكلة من خلال تنسيق ذكي، حيث يصبح كل مجموعة وحدات معالجة الرسومات كائناً موحداً بدلاً من مجموعة من البطاقات المتفرقة.
يتم بناء معمارية الحل حول تقليل المسار من طلب المستخدم إلى استجابة النموذج. يتطلب هذا ضبطاً دقيقاً للمحركات والمراقبة التي لا ترى فقط حمل المعالج، بل مقاييس محددة لذاكرة الفيديو وأنوية CUDA. في سياق الحلول المحلية، هذا حرج. إذا كان بإمكانك في السحابة ببساطة الضغط على زر وشراء مزيد من السعة، فإنك في مركز البيانات الخاص بك محدود بواسطة الخوادم المادية. يجب عليك الحصول على أقصى أداء من ما هو موجود بالفعل في الرف. تقوم Nova AI بأتمتة هذه العملية، مما يسمح لك بإعادة توزيع أوزان النموذج ديناميكياً عبر عقد المجموعة.
لماذا هذا مهم الآن؟ نحن ندخل عصر السيادة البيانية. البنوك والقطاع الحكومي والمجموعات الصناعية الكبيرة لا تستطيع تحمل إرسال معلومات حساسة إلى خوادم في كاليفورنيا. وفي الوقت نفسه، يريدون استخدام نفس القدرات التي توفرها النماذج المغلقة من الطراز الأول. استخدام الأوزان المفتوحة مثل Llama 3 أو Qwen على البنية التحتية الخاصة بهم هو الطريق الوحيد القانوني والآمن. لكن بدون أدوات إدارة مناسبة، يصبح هذا الطريق صراعاً لا نهاية له مع التكوينات وأعطال الاستدلال المفاجئة بسبب نقص الذاكرة.
تتجلى القيمة العملية لمثل هذا النهج في السيناريوهات ذات الأحمال المتغيرة. تخيل أنه خلال اليوم يساعد مساعد ذكاء اصطناعي الخاص بك مئات الموظفين على كتابة التعليمات البرمجية، وفي الليل يجب أن تنتقل المجموعة إلى مهام تحليلية ثقيلة أو ضبط النماذج على بيانات جديدة. في الوضع اليدوي، هذا سيصبح كابوساً لمسؤولي النظام. يجعل حل المنصة هذا سلساً. أنت حرفياً تحول وحدات معالجة الرسومات الخاصة بك إلى بنية تحتية سحابية مرنة تتكيف مع مهام العمل في الوقت الفعلي، بدلاً من إجبار العمل على التكيف مع قيود الأجهزة.
في النهاية، سيعتمد نجاح تطبيق الذكاء الاصطناعي في شركة كبيرة ليس على مدى ذكاء النموذج الذي اختاروه، بل على تكلفة طلب واحد ناجح. إذا كانت عملية الاستدلال الخاصة بك تكلف ثلاثة أضعاف تكلفة المنافسين، فلن تنقذك أي سحر الشبكة العصبية. يصبح التحسين على مستوى Kubernetes والفهم العميق لكيفية عمل مجموعات وحدات معالجة الرسومات تلك الأدوات غير المرئية التي تفصل المنتج العامل عن التجربة المكلفة التي سيتم إيقافها في ستة أشهر.
الملخص الأساسي: ينتهي عصر حرق ساعات وحدة معالجة الرسومات الحمقاء، وقد حان وقت البنية التحتية الذكية. هل ستتمكن المنصات الروسية مثل Nova AI من التنافس مع منسقي الفرقات الغربيين في ظروف نقص الأجهزة?
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.