الاستدلال

خدمة النموذج (Model Serving)

خدمة النموذج (Model Serving) هي طبقة البنية الأساسية التي تنشر نموذج تعلم آلي مُدرَّب للتعامل مع طلبات التنبؤ في الوقت الفعلي أو الدفعات، وتدير التوسع وموازنة التحميل والإصدار والموثوقية في الإنتاج. تسد الفجوة بين القطعة الأثرية للنموذج المدرب في وضع عدم الاتصال ونقطة نهاية API حية قابلة للاستعلام.

تشمل خدمة النموذج الأجهزة والبرامج والعمليات التشغيلية اللازمة لتعريض قدرة الاستدلال للنموذج المدرب كخدمة موثوقة وقابلة للتوسيع. المكونات الأساسية هي وقت تشغيل الخدمة (العملية التي تحمل الأوزان وتنفذ العمليات المتقدمة)، طبقة API (نقاط نهاية HTTP/REST أو gRPC)، قائمة انتظار الطلبات وجدول زمني، منطق التوسيع التلقائي، وسجل نموذج لعمل الإصدارات والتراجع. بالنسبة لنماذج اللغة الكبيرة، يدير وقت التشغيل أيضاً ذاكرة التخزين المؤقت KV - مفاتيح الانتباه والقيم المخزنة للتسلسلات قيد الطيران - والتي يمكن أن تستهلك غالبية ذاكرة GPU.

يتم تحميل قطعة أثرية نموذج على معجلات بواسطة وقت تشغيل خدمة مثل NVIDIA Triton Inference Server أو TensorRT-LLM أو vLLM أو مكدس ملكي لموفر. يتعامل وقت التشغيل مع معالجة الدفعات وتخصيص الذاكرة وتنفيذ النواة. بوابة API أمام توجه حركة المرور وتطبق حدود السعر والمصادقة. تدير Kubernetes أو ما يعادله قابلية التوسيع الأفقية - تشغيل نسخ إضافية تحت الحمل وتفكيكها عندما تنخفض حركة المرور - وتتعامل مع التحديثات المتدرجة عند نشر إصدار نموذج جديد دون فترات توقف. الملاحظة (زمن الاستجابة من حيث المئويات ومعدلات الأخطاء واستخدام GPU وعمق قائمة الانتظار) تغذي قرارات التوسيع التلقائي والتنبيهات.

غالباً ما تكون خدمة النموذج هي مركز التكلفة السائد لمنتج ذكاء اصطناعي في الإنتاج بالنسبة إلى تكاليف التدريب المطفأة على عمر المنتج. تحدد القرارات المتعلقة باختيار الأجهزة وعمق التكميم واستراتيجية معالجة الدفعات وعامل النسخ وما إذا كان يجب استخدام العقود الفورية أو المطلوبة مباشرة التكاليف التشغيلية وكمون SLAs. نموذج لا يمكن تقديمه بشكل موثوق واقتصادي على نطاق واسع ليس له قيمة منتج عملي بغض النظر عن أداء معياره.

اعتباراً من عام 2026، يشمل المشهد منصات تقديم ML ذات الأغراض العامة في السحابة (AWS SageMaker و Google Vertex AI و Azure ML) وأوقات تشغيل مفتوحة المصدر متخصصة في نماذج اللغة الكبيرة (vLLM و Ollama و LMDeploy) وواجهات برمجية ملكية مُدارة بالكامل (OpenAI و Anthropic Claude API و Google Gemini API). تقديم متعدد LoRA - استضافة نموذج أساسي واحد مع مئات طبقات محول ضبط دقيق مبدلة لكل طلب - نضج، مما يسمح للشركات بخدمة العديد من المتغيرات المتخصصة بتكلفة أجهزة نشر أساسي واحد.

مثال

تنشر شركة ناشئة في Fintech نموذج استخراج المستندات الخاص بها باستخدام vLLM على مجموعة Kubernetes مع GPU NVIDIA H100 واثنين، وتكوين التوسيع الأفقي التلقائي لإضافة نسخ عندما يتجاوز عمق قائمة انتظار الطلبات 50، والتراجع تلقائياً إلى إصدار النموذج السابق إذا ارتفع معدل الخطأ فوق 1٪.

مصطلحات مرتبطة

الاستدلال (Inference)معالجة الدفعات (Batching)AI API GPU Cloud (Neocloud)

← المسرد