Hugging Face Blog→ المصدر

Hugging Face: أصبح بالإمكان الآن تشغيل خادم vLLM على HF Jobs بأمر واحد

أطلقت Hugging Face تكامل vLLM مع منصة HF Jobs. وأصبح الآن بالإمكان تشغيل خادم استدلال عالي الأداء للنماذج اللغوية بأمر واحد، من دون Dockerfile أو إعداد GPU…

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
Hugging Face: أصبح بالإمكان الآن تشغيل خادم vLLM على HF Jobs بأمر واحد
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت Hugging Face تكاملاً رسمياً لـ vLLM مع منصة HF Jobs: يمكن الآن نشر خادم استدلال جاهز للإنتاج لنماذج اللغة حرفياً بأمر واحد في الطرفية — بدون Dockerfile أو تكوين تبعيات يدوي أو معرفة بالبنية التحتية السحابية.

أمر واحد بدلاً من ساعة من الإعداد

قبل هذا التحديث، كان نشر خادم vLLM على البنية التحتية البعيدة يتطلب عملاً متعدد الخطوات: كتابة ملف Dockerfile بإصدارات CUDA والمكتبات الصحيحة، وتكوين إعدادات الشبكة وتخطيط المنافذ، واختيار نوع النسخة يدويًا مع ذاكرة GPU المطلوبة، وتمرير عشرات الأعلام عند الإطلاق. عند التبديل بين النماذج أو إصدارات vLLM، يبدأ العملية من جديد. يقلل التكامل الجديد كل هذا إلى أمر واحد: تمرير معرّف النموذج من HF Hub، وتتولى المنصة الباقي. ينشئ HF Jobs تلقائياً الحاوية المطلوبة، ويختار الأجهزة المناسبة، وينطلق خادم vLLM مع معاملات افتراضية محسَّنة. في دقائق قليلة، يكون الخادم جاهزاً للعمل.

لماذا أصبح vLLM المعيار

أصبح vLLM معياراً فعلياً لاستدلال نموذج اللغة عالي الأداء في الإنتاج على مدار سنتين. تجمع المكتبة المطورة في UC Berkeley بين عدة تقنيات أساسية:

  • PagedAttention — إدارة ذاكرة تخزين KV مشابهة للذاكرة الافتراضية في نظام التشغيل، مما يزيد الإنتاجية بشكل كبير تحت الطلبات المتزامنة
  • Continuous batching — معالجة الطلبات الديناميكية في الوقت الفعلي دون انتظار امتلاء قائمة الانتظار
  • Tensor parallelism — توزيع شفاف لنموذج واحد على عدة معالجات GPU
  • واجهة برمجة تطبيقات متوافقة مع OpenAI — يقبل الخادم نفس الطلبات مثل واجهة برمجة تطبيقات OpenAI، بدون تغييرات في كود العميل
  • دعم التكمية (GPTQ وAWQ وGGUF) — يقلل متطلبات ذاكرة GPU بشكل كبير دون فقدان حرج في الجودة

وفقاً للمعايير، يتفوق vLLM على تنفيذ HuggingFace Transformers الساذج بـ 10–20 مرة في الإنتاجية على نفس GPU. هذا هو السبب في أن معظم الشركات التي تشغل نماذج مفتوحة في الإنتاج تستخدمه بالفعل كمحرك الاستدلال الرئيسي.

كيفية عمله في الممارسة العملية

HF Jobs هي منصة Hugging Face لتشغيل مهام ML معبأة في حاويات على بنية تحتية سحابية مُدارة. حتى الآن، كانت تُستخدم بشكل أساسي لتدريب وتدقيق نماذج. يضيف التكامل مع vLLM سيناريو ثالث رئيسي: نشر سريع لخادم الاستدلال بدون معرفة DevOps. يوفر الخادم المنتشر واجهة برمجة تطبيقات OpenAI قياسية — نقاط النهاية `/v1/completions` و `/v1/chat/completions`. هذا يعني أنه يمكن توصيله بدون تغيير واحد في الكود إلى LangChain و LlamaIndex و Open WebUI و Cursor أو أي أداة أخرى تعمل عبر SDK openai. الفواتير فقط للوقت الفعلي لاستخدام GPU. على عكس النسخ المحجوزة من موفري السحابة، لا يتم فرض رسوم على وقت التوقف — يوقف HF Jobs المهمة عند عدم الحاجة إليها.

ما يعنيه هذا

يزيل التكامل الحاجز التشغيلي بين "تجربة نموذج" و "تشغيله في الإنتاج". بالنسبة للشركات الناشئة والفرق الصغيرة التي لا تحتاج إلى مهندس ML مكرس للبنية التحتية، هذا توفير كبير للوقت وتقليل تعقيد المكدس. في السياق الأوسع، تقوم Hugging Face بإغلاق كل مرحلة من مراحل خط أنابيب ML بشكل متسق: تخزين الأوزان والتدريب والتقييم — والآن الاستدلال في الإنتاج. بناءً على هذا المنطق، يخاطر HF Jobs بأن يصبح لاستدلال LLM ما أصبحت عليه Vercel لنشر الواجهة الأمامية: أمر واحد من النموذج إلى واجهة برمجة تطبيقات عاملة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…