الاستدلال

زمن الاستجابة (Latency)

زمن الاستجابة (Latency) في استدلال الذكاء الاصطناعي هو الوقت المنقضي بين تقديم طلب إلى نموذج واستقبال رده، يُقاس عادة بالميلي ثانية. في نماذج اللغة الكبيرة، يُقسّم إلى زمن الوصول إلى التوكن الأول (TTFT) والزمن لكل توكن إخراج (TPOT).

يقيس زمن الاستجابة التأخير المتراكم عبر كل مرحلة من مراحل خط أنابيب الاستدلال من لحظة إرسال طلب إلى لحظة استقبال رد. هناك مقياسان فرعيان مهمان لنماذج اللغة الكبيرة: زمن الوصول إلى التوكن الأول (TTFT)، التأخير قبل ظهور التوكن الأول من الإخراج، والزمن لكل توكن إخراج (TPOT)، السرعة التي تصل بها التوكنات اللاحقة. يساوي إجمالي زمن الاستجابة تقريباً TTFT زائد (TPOT × عدد التوكنات المُخرجة).

يتراكم زمن الاستجابة عبر نقل الشبكة وانتظار الطلب وبحث ذاكرة التخزين المؤقت KV وحسابات GPU. تهيمن مرحلة الملء - معالجة مطالب الإدخال بالكامل بشكل متوازي - على TTFT وتتسع مع طول المطالب. تحدد مرحلة فك التشفير الانحداري، التي تولد توكناً واحداً لكل عملية متقدمة، TPOT. أثناء فك التشفير، عادة ما تكون نطاق ذاكرة GPU بدلاً من الحساب الخام هي القيد الملزم، لأن مصفوفات الأوزان يجب تحميلها من ذاكرة HBM لكل خطوة توكن.

بالنسبة للتطبيقات التفاعلية مثل روبوتات الدردشة ومساعدات البرمجة والوكلاء الصوتيين، يقلل زمن الاستجابة المرتفع بشكل مباشر من قابلية الاستخدام. يضع بحث عوامل الإنسان عتبة الشعور بـ "الفوري" عند تقريباً 200 ميلي ثانية؛ فوق 1-2 ثانية، تنخفض معدلات مشاركة المستخدم وإكمال المهام بشكل قابل للقياس. في سير العمل الموكول حيث يستدعي نموذج الأدوات في حلقات، يتراكم زمن الاستجابة عبر العديد من الاستدعاءات المتسلسلة، مما يجعل تأخير كل خطوة ذا نتيجة.

اعتباراً من عام 2026، توفر واجهات برمجية مستضافة من OpenAI و Anthropic و Google عادة TTFTs أقل من 500 ميلي ثانية وسرعات بث من 40-100 توكن في الثانية على الطلبات القياسية. تقنيات التحسين بما في ذلك فك التشفير المضارب (استخدام نموذج مسودة صغير لاقتراح التوكنات التي يتحقق منها نموذج أكبر)، والدفع المستمر، والتكميم قد قللت زمن الاستجابة بشكل كبير منذ عام 2023. توفر الأجهزة المتخصصة - NVIDIA H100/H200 و AMD MI300X و Google TPU v5e - نطاق ذاكرة النطاق الترددي اللازم لدفع TPOT أقل من 10 ميلي ثانية لكل توكن.

مثال

تراقب مؤسسة تنشر مساعد برمجة في الوقت الفعلي TTFT لضمان أن يرى المطورون التوكن الأول من الاقتراح في غضون 300 ميلي ثانية؛ إذا تجاوز TTFT هذه العتبة تحت الحمل، يقوم الفريق بتوسيع النسخ أو تفعيل فك التشفير المضارب لتلبية اتفاقية مستوى الخدمة (SLA).

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد