الاستدلال

معالجة الدفعات (Batching)

معالجة الدفعات (Batching) في استدلال النموذج هي ممارسة تجميع طلبات إدخال متعددة ومعالجتها معاً في عملية متقدمة واحدة من خلال النموذج، مما يحسن استخدام GPU والإنتاجية. يوسع الدفع المستمر هذا بإدراج وإزالة التسلسلات أثناء التوليد بدلاً من الانتظار لإكمال دفعة كاملة.

تجمع معالجة الدفعات طلبات استدلال متعددة - كل منها تسلسل من التوكنات - في موتر واحد يُغذي النموذج في نفس الوقت. تعالج عمليات ضرب مصفوفة GPU دفعة من n تسلسل تقريباً بسرعة تسلسل واحد عندما تسمح سعة الذاكرة، لأن التكلفة الثابتة لتحميل أوزان النموذج من الذاكرة تُطفأ عبر جميع أعضاء الدفعة. بدون معالجة الدفعات، يتحمل كل طلب تلك التكلفة بشكل مستقل، تاركاً GPUs مستخدمة بنسبة منخفضة.

في معالجة الدفعات الثابتة (أو المتزامنة)، يتم تجميع مجموعة ثابتة من الطلبات قبل بدء التوليد؛ يجب أن تكتمل جميع التسلسلات قبل إفراج الدفعة، لذلك تجلس الطلبات سريعة الإنهاء خاملة بانتظار الطلبات البطيئة. عادة ما ينتج هذا حجب رأس الخط عن استخدام GPU بنسبة 20-40٪ تحت أحمال مختلطة الطول. الدفع المستمر، المقدم في ورقة بحثية Orca (2022) والمعتمد من قِبل vLLM (2023)، يجدول على مستوى التكرار: يتم إخراج التسلسلات المكتملة وإدراج طلبات جديدة في كل خطوة فك تشفير، مما يبقي GPU مستخدماً بالكامل بغض النظر عن تباين طول التسلسل. هذا يرفع الاستخدام إلى 70-90٪+ في الممارسة.

معالجة الدفعات هي الآلية الأساسية التي بموجبها تطفأ أنظمة التقديم تكاليف GPU عبر المستخدمين المتزامنين. هي أيضاً الرافعة الرئيسية المتاحة للمشغلين الذين يريدون زيادة الإنتاجية بدون إضافة أجهزة. التكلفة هي زمن استجابة متزايد للطلبات الفردية، لأن الطلب قد يتعين عليه أحياناً الانتظار في قائمة الانتظار حتى يفتح فتحة دفعة - تبادل يمكن تضبيطه بواسطة تعديل حجم الدفعة الأقصى وسياسة الجدولة.

اعتباراً من عام 2026، معالجة الدفعات المستمرة هي الاستراتيجية الافتراضية في أوقات تشغيل نماذج اللغة الكبيرة مفتوحة المصدر الرئيسية - vLLM و LMDeploy و SGLang و MLC-LLM - وتُستخدم داخلياً من قِبل جميع موفري الاستدلال التجاريين الكبيرين. مجالات البحث النشطة تشمل الملء المقسم (يقحم معالجة مطالب مع فك التشفير لتقليل قمم زمن الاستجابة)، والدفع المضاري، والهندسات المعمارية غير المتجمعة التي تفصل أحمال عمل الملء والفك على مجموعات أجهزة مختلفة للتحكم الأدق في الموارد.

مثال

تستخدم منصة خدمة العملاء معالجة الدفعات المستمرة في vLLM بحيث تُعالج تصنيف 'نعم/لا' من توكنين وملخص شكوى من 500 توكن على نفس GPU بشكل متزامن، مما يمنع الطلبات القصيرة من التوقف خلف الطلبات الطويلة ويحافظ على زمن الاستجابة الوسيط أقل من 800 ميلي ثانية.

مصطلحات مرتبطة

الإنتاجية (Throughput)خدمة النموذج (Model Serving)الاستدلال (Inference)GPU (Graphics Processing Unit)

← المسرد