Hugging Face: أصبح بالإمكان الآن تشغيل خادم vLLM على HF Jobs بأمر واحد

Q: ما هو المصدر؟

نُشر أصلاً على Hugging Face Blog. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

28 يونيو 2026. وقت القراءة: 3 دقيقة.

أطلقت Hugging Face تكامل vLLM مع منصة HF Jobs. وأصبح الآن بالإمكان تشغيل خادم استدلال عالي الأداء للنماذج اللغوية بأمر واحد، من دون Dockerfile أو إعداد GPU…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Hugging Face Blog

28 يونيو 2026· 2 د

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News

Hugging Face: أصبح بالإمكان الآن تشغيل خادم vLLM على HF Jobs بأمر واحد — المصدر: Hugging Face Blog. كولاج: Hamidun News.

◐ استمع للمقال

أطلقت Hugging Face تكاملاً رسمياً لـ vLLM مع منصة HF Jobs: يمكن الآن نشر خادم استدلال جاهز للإنتاج لنماذج اللغة حرفياً بأمر واحد في الطرفية — بدون Dockerfile أو تكوين تبعيات يدوي أو معرفة بالبنية التحتية السحابية.

أمر واحد بدلاً من ساعة من الإعداد

قبل هذا التحديث، كان نشر خادم vLLM على البنية التحتية البعيدة يتطلب عملاً متعدد الخطوات: كتابة ملف Dockerfile بإصدارات CUDA والمكتبات الصحيحة، وتكوين إعدادات الشبكة وتخطيط المنافذ، واختيار نوع النسخة يدويًا مع ذاكرة GPU المطلوبة، وتمرير عشرات الأعلام عند الإطلاق. عند التبديل بين النماذج أو إصدارات vLLM، يبدأ العملية من جديد. يقلل التكامل الجديد كل هذا إلى أمر واحد: تمرير معرّف النموذج من HF Hub، وتتولى المنصة الباقي. ينشئ HF Jobs تلقائياً الحاوية المطلوبة، ويختار الأجهزة المناسبة، وينطلق خادم vLLM مع معاملات افتراضية محسَّنة. في دقائق قليلة، يكون الخادم جاهزاً للعمل.

لماذا أصبح vLLM المعيار

أصبح vLLM معياراً فعلياً لاستدلال نموذج اللغة عالي الأداء في الإنتاج على مدار سنتين. تجمع المكتبة المطورة في UC Berkeley بين عدة تقنيات أساسية:

PagedAttention — إدارة ذاكرة تخزين KV مشابهة للذاكرة الافتراضية في نظام التشغيل، مما يزيد الإنتاجية بشكل كبير تحت الطلبات المتزامنة
Continuous batching — معالجة الطلبات الديناميكية في الوقت الفعلي دون انتظار امتلاء قائمة الانتظار
Tensor parallelism — توزيع شفاف لنموذج واحد على عدة معالجات GPU
واجهة برمجة تطبيقات متوافقة مع OpenAI — يقبل الخادم نفس الطلبات مثل واجهة برمجة تطبيقات OpenAI، بدون تغييرات في كود العميل
دعم التكمية (GPTQ وAWQ وGGUF) — يقلل متطلبات ذاكرة GPU بشكل كبير دون فقدان حرج في الجودة

وفقاً للمعايير، يتفوق vLLM على تنفيذ HuggingFace Transformers الساذج بـ 10–20 مرة في الإنتاجية على نفس GPU. هذا هو السبب في أن معظم الشركات التي تشغل نماذج مفتوحة في الإنتاج تستخدمه بالفعل كمحرك الاستدلال الرئيسي.

كيفية عمله في الممارسة العملية

HF Jobs هي منصة Hugging Face لتشغيل مهام ML معبأة في حاويات على بنية تحتية سحابية مُدارة. حتى الآن، كانت تُستخدم بشكل أساسي لتدريب وتدقيق نماذج. يضيف التكامل مع vLLM سيناريو ثالث رئيسي: نشر سريع لخادم الاستدلال بدون معرفة DevOps. يوفر الخادم المنتشر واجهة برمجة تطبيقات OpenAI قياسية — نقاط النهاية `/v1/completions` و `/v1/chat/completions`. هذا يعني أنه يمكن توصيله بدون تغيير واحد في الكود إلى LangChain و LlamaIndex و Open WebUI و Cursor أو أي أداة أخرى تعمل عبر SDK openai. الفواتير فقط للوقت الفعلي لاستخدام GPU. على عكس النسخ المحجوزة من موفري السحابة، لا يتم فرض رسوم على وقت التوقف — يوقف HF Jobs المهمة عند عدم الحاجة إليها.

ما يعنيه هذا

يزيل التكامل الحاجز التشغيلي بين "تجربة نموذج" و "تشغيله في الإنتاج". بالنسبة للشركات الناشئة والفرق الصغيرة التي لا تحتاج إلى مهندس ML مكرس للبنية التحتية، هذا توفير كبير للوقت وتقليل تعقيد المكدس. في السياق الأوسع، تقوم Hugging Face بإغلاق كل مرحلة من مراحل خط أنابيب ML بشكل متسق: تخزين الأوزان والتدريب والتقييم — والآن الاستدلال في الإنتاج. بناءً على هذا المنطق، يخاطر HF Jobs بأن يصبح لاستدلال LLM ما أصبحت عليه Vercel لنشر الواجهة الأمامية: أمر واحد من النموذج إلى واجهة برمجة تطبيقات عاملة.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية