NVIDIA تقدم DynoSim لتحسين معاملات خدمة نماذج اللغة الكبيرة
عرضت NVIDIA أداة DynoSim — محاكي للبحث عن التكوين الأمثل لخدمة نماذج اللغة الكبيرة. تقوم الأداة بمحاكاة حدود باريتو تلقائياً، مع الأخذ بعين الاعتبار عشرات المعا
معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
عرضت NVIDIA أداة DynoSim لتحسين تلقائي لتكوينات أنظمة خدمة نماذج اللغة الكبيرة. يساعد الحل المهندسين في العثور على التوليفة المثالية من عشرات المعاملات من خلال محاكاة حدود باريتو — مجموعة من التكوينات حيث يؤدي تحسين أحد المؤشرات حتماً إلى تدهور آخر.
المشكلة: مئات المتغيرات
ضبط خدمة نماذج اللغة الكبيرة ليس متغيراً واحداً، بل نظام كامل من المعاملات المتفاعلة. يؤثر كل اختيار على الآخرين، والتحسين المحلي غالباً ما يزيح الاختناق إلى جزء آخر من النظام. على سبيل المثال، بإضافة عمال أكثر للمعالجة المتوازية، يمكن أن ينخفض زمن التأخير بسبب نقص الذاكرة. وبالاختيار من نموذج خلفي مختلف، يجب إعادة تكوين المجدول. المعاملات الرئيسية التي يجب مراعاتها في نفس الوقت:
- اختيار نموذج الواجهة الخلفية (vLLM, TensorRT, TensorRT-LLM، وغيرها)
- شكل التوازي الموتري (كيفية توزيع الحسابات على عدة وحدات GPU)
- التوازن بين مراحل التعبئة المسبقة (تحضير السياق) وفك التشفير (توليد الإجابة)
- عدد عمليات العمال والخيوط على المضيف
- استراتيجية المجدول (حجم الدفعة، التجميع الديناميكي)
- سياسة توجيه حركة المرور بين العقد
- سلوك ذاكرة KV المؤقتة وإدارة الذاكرة
- حدود التوسع التلقائي والتوسع الأفقي
في السابق، كان المهندسون يجدون التكوين الأمثل من خلال التجربة والخطأ. كان هذا يعني أسابيع من الاختبار على معدات مكلفة جداً مع وحدات GPU، وتكاليف عالية جداً وعدم القدرة على التحقق من جميع التوليفات.
الحل: محاكاة حدود باريتو
تقوم أداة DynoSim بمحاكاة فضاء المعاملات تلقائياً وتبني خريطة الأداء. بدلاً من الاختبار على معدات حقيقية، تستخدم الأداة نموذجاً فيزيائياً للأجهزة والبرامج — وتتنبأ بزمن التأخير والإنتاجية واستهلاك الذاكرة. على المخرجات، تصدر أداة DynoSim حدود باريتو — مجموعة من التكوينات غير المهيمنة.
على سبيل المثال، قد تعطي إحدى الإعدادات زمن تأخير 50 ميلي ثانية عند إنتاجية 1000 طلب/ثانية، بينما تعطي أخرى 100 ميلي ثانية عند 2000 طلب/ثانية. يختار المهندس التكوين بناءً على الأولويات: إذا كان يريد زمن تأخير منخفض — يختار الأول، وإذا كان يريد أقصى إنتاجية — يختار الثاني، وإذا كان يريد توازن — يبحث عن واحد وسيط. عادةً ما تستغرق العملية ساعات من الحسابات وليس أسابيع من التجارب على معدات حقيقية.
وهذا يسرع دورة التطوير ويسمح للمهندسين باختبار مئات توليفات المعاملات.
ما معنى هذا
تنقل أدوات مثل DynoSim تحسين خدمة نماذج اللغة الكبيرة من منطقة التجريب البحت إلى تخصص علمي. يمكن للشركات الآن إجراء اختيار مستنير للتكوين بدلاً من المحاولات العمياء نسبياً. بالنسبة لخدمات السحابة الكبيرة، حتى التحسن الطفيف في الكفاءة يقلل التكاليف بمئات الملايين من الدولارات في السنة، لذلك أصبحت أدوات مثل DynoSim بسرعة معياراً في الصناعة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.