AWS SageMaker وvLLM: النسخ المتدفق للكلام في الوقت الفعلي
قدّمت AWS حلاً لتطبيقات الصوت في الوقت الفعلي: الوكلاء الصوتيون، والتسميات التوضيحية التلقائية للفيديو، وتحليلات مراكز الاتصال تتطلب نسخًا فوريًا للكلام. ويضيف

الوكلاء الصوتيون وأنظمة الترجمة الفورية التلقائية وتحليلات مراكز الاتصالات — كلها تعتمد على شيء واحد: النسخ الصوتي الفوري في الوقت الفعلي. قدمت AWS معمارية حيث يتم معالجة مجرى الصوت بشكل متزامن مع استقباله من خلال اتصال واحد دائم — بدون تأخير، بدون انتظار نهاية التسجيل.
لماذا الطريقة القديمة فشلت
النهج التقليدي هو الطلب والاستجابة. يرسل المستخدم صوتًا كاملاً، ويتلقاه النظام بالكامل، ثم يبدأ في النسخ. تأتي النتيجة بعد ذلك.
بالنسبة للسيناريوهات غير المتزامنة (على سبيل المثال، معالجة تسجيل اجتماع لمدة ساعة)، هذا طبيعي. لكن بالنسبة للوكلاء الصوتيين الذين يجب أن يستجيبوا في الوقت الفعلي، هذه المعمارية تدمر تجربة التفاعل. يقول المستخدم "احجز لي طاولة للساعة الثامنة"، ينتظر رد الوكيل — والنظام لا يزال يجمع البيانات، ينتظر فترة صمت، يتأكد من أن المستخدم انتهى.
النتيجة: تأخير من 2-3 ثوان، وشعور المحادثة ينهار. يواجه البث المباشر للترجمة الفورية في بث الفيديو نفس المشكلة: كمون طلب الاستجابة يسبب عدم المزامنة مع الفيديو، والنص يتخلف عن الكلام بعدة ثوان. بالنسبة لمراكز الاتصالات، هذا يعني أن التحليلات تتخلف عن المحادثة، والاقتراحات للمشغل تصل متأخرة جدًا لمساعدة.
الحل: معالجة البث على SageMaker AI
يوفر AWS SageMaker AI مقترنًا بإطار العمل المُحسَّن vLLM معمارية تغير فيزياء المشكلة. يصل الصوت في أجزاء صغيرة، والنموذج يبدأ بتحويلها إلى نص أثناء الوصول. يبقى الاتصال مفتوحًا، وتتدفق النتائج مرة أخرى في الوقت الفعلي. لا توجد حاجة لانتظار نهاية التسجيل. يعمل مثل بث الفيديو: يتم عرض الإطارات الأولى بينما لا يزال البقية يحمّل. تتم معالجة كل جزء صوتي بالتوازي مع استقبال التالي — يعمل خط أنابيب الاستدلال بشكل مستمر، بتخزين أجزاء الصوت مؤقتًا. vLLM حاسم هنا: فهو محسّن بالضبط لهذا النوع من الاستدلال بالبث. يعيد الإطار توزيع الحسابات بحيث لا ينتظر المعالج وصول جميع المدخلات. النتيجة: كمون بالميلي ثانية بدلاً من الثواني، متطلبات الذاكرة لكل طلب تنخفض بنسبة 30-50 في المائة.
"معالجة البث تغير الفيزياء: بدلاً من طلب واحد كبير — عدد من الطلبات
الصغيرة، لكنها متصلة. هذا يوزع الحسابات ويبقي الكمون في نطاق مقبول".
حيث يتم تطبيقها
حالات الاستخدام عديدة:
- الوكلاء الصوتيون والدردشات الآلية يستجيبون بدون تأخير 2-3 ثوان؛ يسمع الوكيل الجملة الأولى وينتج ردًا بالفعل
- البث المباشر للترجمة الفورية — تظهر الترجمة الفورية في الوقت المناسب تقريبًا مع الكلام، مثالية للبث والندوات عبر الويب
- تحليلات مراكز الاتصالات — يحلل النظام الكلام أثناء سير المحادثة، يقترح إجابات للمشغل في الوقت الفعلي
- أدوات إمكانية الوصول — التطبيقات للمستخدمين الصم وضعاف السمع توصل النص فورًا، بدون تأخير
- واجهات السيارات — يستجيب المساعد الصوتي بسرعة المساعد النصي
توفر AWS هذا كخدمة مُدارة عبر SageMaker — لا تحتاج الشركة إلى نشر مجموعات GPU بنفسها، أو ضبط vLLM لأجهزتها الخاصة، أو توسيع البنية الأساسية أثناء ذروات حركة المرور. نموذج الدفع حسب الاستخدام.
ماذا يعني هذا
معالجة بث الصوت تخرج من فئة المشاريع البحثية إلى المعيار الإنتاجي. بالنسبة للأعمال التجارية، هذا يعني تقليل تكلفة الدخول إلى واجهات صوتية بمقدار رتبة من الحجم — سابقًا كنت تحتاج إلى البنية الأساسية الخاصة بك، الآن هو استدعاء API. بالنسبة للمستخدمين، يحصل المدخل الصوتي على المساواة مع النص: سريع الاستجابة، طبيعي، لا يتطلب انتظارًا. في السنوات القادمة، سيصبح هذا التوقع الأساسي من أي تطبيق ذكاء اصطناعي يعمل مع الكلام.