الاستدلال

الإنتاجية (Throughput)

الإنتاجية (Throughput) في استدلال الذكاء الاصطناعي هي حجم العمل الذي تعالجه نظام خدمة النموذج في وحدة زمنية واحدة، يُعبّر عنها عادة بعدد التوكنات المُخرجة في الثانية أو الطلبات المكتملة في الثانية عبر جميع المستخدمين المتزامنين. تعكس إجمالي سعة النظام بدلاً من سرعة أي طلب واحد.

تقدّر الإنتاجية معدل الإخراج الإنتاجي الإجمالي لنشر الاستدلال - كم عدد التوكنات المُولدة أو عدد الطلبات المكتملة عبر جميع الجلسات المتزامنة في فترة زمنية معينة. هي نظير الإنتاجية في المستوى النظامي لزمن الاستجابة: بينما يصف زمن الاستجابة تجربة مستخدم واحد، تصف الإنتاجية السعة الإجمالية للمعالجة بواسطة النظام. ترتبط المقاييس الاثنين لكن تتاجر مع بعضها؛ يزيد حجم الدفعة من الإنتاجية بينما يزيد زمن الاستجابة لكل طلب.

تتسع الإنتاجية مع عدد GPUs وحجم الدفعة وتحسينات النموذج. يعالج الدفع المستمر التوكنات من طلبات متعددة قيد الطيران في عملية متقدمة واحدة، مما يرفع استخدام GPU. يوزع تعطيل التوتر أوزان النموذج عبر GPUs متعددة، مما يتيح دفعات أكبر من ذاكرة GPU واحدة. التكميم - تقليل دقة الأوزان من FP16 إلى INT8 أو INT4 - يقلل من بصمة الذاكرة، مما يسمح بملاءمة المزيد من التسلسلات المتزامنة. يوسع تعطيل الأنابيب عبر العقد القدرة بشكل أكبر للنماذج الكبيرة جداً.

بالنسبة لنشرات حركة المرور العالية - روبوتات دعم العملاء واستكمال البحث ومعالجة المستندات على نطاق واسع - تحدد الإنتاجية التكلفة لكل توكن وأقصى حمل مستخدم متزامن الذي يمكن للبنية الأساسية الاستمرار فيه دون تأخير انتظار. مضاعفة الإنتاجية بأجهزة ثابتة تنصف تكلفة الاستدلال لكل وحدة، وهي على نطاق مليارات التوكنات اليومية تمثل نفقات تشغيلية كبيرة.

في 2025-2026، أظهرت مكدسات تقديم مصدر مفتوح محسّنة مثل vLLM و SGLang و TensorRT-LLM إنتاجيات بعدة آلاف من التوكنات المُخرجة في الثانية لكل GPU H100 لنماذج في نطاق 7B-70B معامل. تنشر موفرو الخدمات السحابية معايير الإنتاجية تحت الحمل المستمر لمساعدة العملاء في توسيع نطاق المجموعات حسب أنماط حركة المرور الخاصة بهم. يستمر البحث في الملء المقسم، وعدم تجميع الملء/فك التشفير، والتنفيذ المضاري في دفع الإنتاجية أعلى مع الحفاظ على زمن الاستجابة في الذيل محدوداً.

مثال

تقوم شركة بتشغيل خط أنابيب تلخيص المستندات الليلي بتكوين الدفع المستمر على عقدة بأربعة GPUs لدعم 6,000 توكن إخراج في الثانية عبر 200 وظيفة متزامنة، مما يكمل قائمة الانتظار بالكامل خلال نافذة معالجة بساعتين.

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد