AWS Machine Learning Blog→ المصدر

أنشأت Loka وكيلاً صوتياً على Amazon Nova 2 Sonic بزمن استجابة أقل من ثانية

نشرت Loka بنية وكيل صوتي مبني على Amazon Nova 2 Sonic، وهو نموذج كلامي من AWS يتجاوز السلسلة التقليدية ASR→LLM→TTS ويرد على العملاء خلال 300–500 مللي ثانية…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
أنشأت Loka وكيلاً صوتياً على Amazon Nova 2 Sonic بزمن استجابة أقل من ثانية
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

نشرت شركة Loka تحليلاً معمارياً مفصلاً لكيفية بنائها وكيل صوتي بناءً على Amazon Nova 2 Sonic — نموذج الكلام من جيل AWS الجديد. كان التحدي واضحاً: بناء روبوت لن يُغلق العملاء الخط عليه بعد بضع ثوان من الانتظار.

المشكلة المراد حلها

الصوت الآلي في روبوتات الهاتف ليس مجرد إزعاج جمالي. بالنسبة للشركات، يعني خسائر مباشرة: يُغلق العميل الخط أو يتصل للتحدث مع مشغل حي أو ينتقل إلى منافس. تعاني سمعة العلامة التجارية، وترتفع تكاليف الدعم.

تعمل الأنظمة الصوتية الكلاسيكية من خلال سلسلة طويلة: التعرف على الكلام (ASR) → تحويل إلى نص → نموذج لغة → توليد الردّ → تركيب الكلام (TTS). تتراكم الكمون في كل مرحلة. نتيجة لذلك، الفاصل الزمني بين سؤال العميل ورد الروبوت هو من 2 إلى 5 ثوان.

في هذا الوقت، يقرر الشخص أن النظام لا يعمل ويُغلق الخط أو يطلب مشغل آدمي. وضعت Loka لنفسها هدفاً لكسر هذه السلسلة وإنشاء وكيل يرد في غضون الفاصل الطبيعي للحوار، مثل محاورة حية. كان الحل هو Amazon Nova 2 Sonic.

ما الذي يفعله Nova 2 Sonic بشكل مختلف

Nova 2 Sonic هو نموذج speech-to-speech متعدد الأشكال من AWS يعمل مباشرة مع الصوت، متخطياً خطوات النسخ المنفصلة لـ ASR والتركيب TTS. يأخذ تدفق صوتي كمدخل وينتج تدفق صوتي كمخرج دون تحويل وسيط إلى نص. هذا يغير ملف تعريف الكمون بشكل أساسي:

  • تبدأ الردود خلال 300–500 ميلي ثانية بعد توقف المستخدم
  • يفهم النموذج التوقفات الطبيعية في الكلام ويرد عليها بشكل صحيح
  • يسمع النظام النبرة والسياق العاطفي — ويكيّف نبرة الردّ وفقاً لذلك
  • تختفي الشعور بـ "النظام يعالج" تماماً من الحوار
  • التكامل مع منطق الأعمال من خلال استدعاء الوظائف لا ينقطع مسار المحادثة

يتوفر Nova 2 Sonic عبر Amazon Bedrock، مما يسمح للشركات على AWS بدمجه دون تبديل المزود أو إعادة بناء البنية الأساسية بالكامل.

الهندسة المعمارية في الإنتاج

طبقت Loka بث الصوت في الوقت الفعلي مع التخزين المؤقت الأدنى. لا ينتظر النظام البيان الكامل للمستخدم — يبدأ المعالجة على الفور، مما يسمح لـ Nova 2 Sonic بالرد بدقة في لحظة التوقف الطبيعي، وليس بعد الصمت المطول.

« الصوت الآلي هو السبب الرئيسي لإغلاق العملاء الخط. إنها ليست مشكلة تقنية — إنها مشكلة ثقة »، كما تلاحظ فريق

Loka.

للوصول إلى بيانات الأعمال في الوقت الفعلي — حالة الطلب وسجل العميل وتوفر المخزون — يستخدم الوكيل استدعاء الوظائف في الوقت الفعلي. بالنسبة للعميل، يبدو وكأنه رد فعلي فوري، وليس توقف محسوس في الانتظار. في الإنتاج، يُظهر النظام مرونة تجاه الانقطاعات وتغييرات المواضيع والفواصل غير القياسية — سيناريوهات حيث تفشل الأنظمة ASR الكلاسيكية بشكل أساسي.

ماذا يعني هذا

تزيل نماذج speech-to-speech الحاجز الرئيسي أمام الاعتماد الجماعي لروبوتات الصوت — الكمون الذي يمكن إدراكه والذي يُدمّر وهم المحادثة الحية. إذا كان الكمون غير محسوس وكان الصوت طبيعياً، يختفي الفاصل بين الوكيل والمشغل. بالنسبة للشركات، هذا مسار مباشر لأتمتة مراكز الاتصال دون الإضرار بـ NPS. في أعقاب Nova 2 Sonic، ستدخل نماذج مماثلة من موفرين آخرين إلى السوق — المنافسة في قطاع voice AI بدأت للتو.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…