البث المباشر للرموز (Streaming)
البث المباشر في استدلال نماذج الذكاء الاصطناعي هو توصيل مخرجات النموذج من رمز إلى آخر إلى العميل كلما تم إنتاج كل رمز، بدلاً من انتظار الاستجابة الكاملة قبل إرسال أي شيء. يقلل من زمن الكمون المدرَك إلى تقريباً وقت الرمز الأول ويمكّن العرض التدريجي للاستجابات الطويلة.
يرسل البث المباشر كل رمز مُنتج — أو مخزن مؤقت صغير من الرموز — إلى العميل فوراً بعد إنتاجه، عبر اتصال دائم يبقى مفتوحاً طوال مدة الإنشاء. آليات النقل المعيارية الرئيسية هما أحداث الخادم المرسلة (SSE) عبر HTTP/1.1، حيث يدفع الخادم أجزاء JSON مفصولة بأسطر جديدة، والتدفقات ثنائية الاتجاه في gRPC. يقرأ العميل الأجزاء الواردة ويضيفها إلى العرض في الوقت الفعلي، مما ينتج عنه مخرجات بأسلوب الآلة الكاتبة المألوفة من واجهات ChatGPT و Claude و Gemini.
من منظور النموذج، فإن الحساب متطابق سواء كان البث المباشر مفعلاً أم لا: يُنتج فك التشفير الانحداري رمزاً واحداً لكل تمريرة أمامية بغض النظر. الفرق هو بحتة في الإيصال — بدون بث، يحتفظ الخادم بجميع الرموز ويُفرغها في نص استجابة HTTP واحد بعد انتهاء الإنشاء؛ مع البث، كل رمز أو دفعة صغيرة تؤدي إلى كتابة على المقبس المفتوح. هذا يفرض حملاً إضافياً ضئيلاً جداً على الخادم بينما يغير بشكل جذري تجربة المستخدم للزمن الكامن.
بالنسبة للاستجابات ذات الطول المتوسط إلى الطويل، يتطلب الإيصال غير المباشر من المستخدم انتظار الوقت الكامل للإنشاء — ربما 10–30 ثانية للمخرجات متعددة الفقرات — قبل رؤية أي شيء. يقلل البث المباشر الانتظار الذاتي إلى وقت الرمز الأول، عادةً أقل من ثانية على الأنظمة المحسّنة. كما أنه يمكّن الإيقاف المبكر: يمكن للمستخدم مقاطعة الإنشاء بمجرد توفر معلومات كافية، مما يوفر حساب الخادم الذي قد يُنفق بخلاف ذلك على إكمال استجابة غير مرغوبة. في خطوط الأنابيب الصوتية وحلقات الوكيل، البث المباشر ضروري من الناحية المعمارية: يمكن لتوليف النص إلى كلام أن يبدأ استهلاك الجملة الأولى بينما النموذج لا يزال ينشئ الفقرات اللاحقة، مما يقشّر ثوانٍ من زمن الكمون للاستجابة الصوتية.
البث المباشر هو وضع الإيصال الافتراضي لجميع واجهات برمجة التطبيقات (API) الرئيسية للنماذج اللغوية الكبيرة اعتباراً من 2026، بما في ذلك تلك من OpenAI و Anthropic و Google و Mistral و Cohere. تنسيق أجزاء SSE من OpenAI — `data: {\"choices\":[{\"delta\":{\"content\":\"token\"}}]}` تنتهي بـ `data: [DONE]` — أصبحت معياراً فعلياً تعتمده vLLM و Ollama و LiteLLM والعديد من الخوادم البديلة مفتوحة المصدر، مما يبسط تكامل العميل عبر مختلف الموردين.