AWS Machine Learning Blog→ المصدر

Stream Vision Agents مع Amazon Nova 2 Sonic: روبوتات صوتية للإنتاج خلال دقائق

Stream Vision Agents هو إطار عمل open-source يتيح، عند دمجه مع Amazon Nova 2 Sonic على منصة Amazon Bedrock، إطلاق وكيل صوتي جاهز للإنتاج خلال دقائق من دون بنية

Stream Vision Agents مع Amazon Nova 2 Sonic: روبوتات صوتية للإنتاج خلال دقائق
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

يمكن لـ Stream Vision Agents و Amazon Nova 2 Sonic إنشاء وكلاء صوتيين جاهزين للإنتاج والذين يكونون مستعدين للعمل خلال دقائق معدودة. يوفر تكامل إطار العمل مفتوح المصدر Stream مع نموذج Nova 2 Sonic السحابي من خلال منصة Amazon Bedrock ديمقراطية الوصول إلى الذكاء الاصطناعي — يمكن للمهندسين البدء في بناء واجهات صوتية متكاملة تماماً دون أشهر من التطوير.

ما الذي تغير في الذكاء الاصطناعي في الوقت الفعلي

في السابق، كان إنشاء وكيل صوتي جاهز للإنتاج يتطلب عملاً جوهرياً. كان يجب تكوين التعرف على الكلام، والتكامل مع نموذج لغوي، ومعالجة البيانات المتدفقة، وتطبيق التعافي من فشل الاتصال، وتدريب الوكيل على العمل مع واجهات برمجة التطبيقات الخاصة بتطبيقك. كل مكون يتطلب خبرة منفصلة. يبسط Stream Vision Agents العملية برمتها إلى تكامل واحد فقط. يعمل الإطار فوق Amazon Nova 2 Sonic — نموذج سريع وفعال من حيث التكلفة يعمل بشكل جيد لمهام الصوت في الوقت الفعلي بكمون منخفض. توفر Amazon Bedrock واجهة سحابية، لذا لا تحتاج إلى إدارة الخوادم ولا توسيع البنية الأساسية يدوياً.

مما يتكون

Stream Vision Agents هو إطار عمل مفتوح المصدر يوحد العمل مع الصوت المتدفق والنماذج الصوتية. يتعامل مع التفاصيل منخفضة المستوى: تخزين مؤقت لإطارات الصوت، والمزامنة مع النموذج، ومعالجة الأخطاء عند نقل البيانات. Amazon Nova 2 Sonic هو نموذج لغوي مضغوط محسّن للسرعة. يولد الردود النصية بسرعة وتكلفته أقل بكثير من النماذج الكبيرة. على منصة Amazon Bedrock، يصبح النموذج متاحاً من خلال واجهة برمجية موحدة مع التوسع الآلي.

ماذا يمكن للوكيل أن يفعل

  • استدعاء الدوال — يستدعي الوكيل وظائفك وواجهات برمجة التطبيقات والخدمات الخارجية. على سبيل المثال، التحقق من رصيد الحساب، أو تقديم طلب توصيل، أو الحصول على الجداول الزمنية، أو تحديث قاعدة البيانات.
  • إعادة الاتصال التلقائي — عند قطع الاتصال، يعيد الوكيل الاتصال بشفافية، دون فقدان سياق المحادثة.
  • دعم متعدد اللغات — يعمل مع أكثر من 20 لغة في نفس الوقت: الروسية، الإنجليزية، الصينية، الإسبانية وغيرها.
  • معالجة الصوت المتدفق — يتم معالجة الصوت في الوقت الفعلي بدون قوائم انتظار أو تأخيرات. يتم قياس وقت الاستجابة بالميلي ثانية.
  • الوعي بالسياق — يتذكر الوكيل مسار المحادثة ويجيب على الأسئلة اللاحقة مع الأخذ في الاعتبار السياق.

حيث يمكن أن يعمل

الخدمات المالية — يجيب الوكيل الصوتي على الأسئلة حول الحسابات والتحويلات. التجارة الإلكترونية — يساعد في إيجاد المنتج وتقديم الطلب. خدمة العملاء — يجيب على الأسئلة القياسية ويحيل الحالات المعقدة إلى شخص. الرعاية الصحية والخدمات اللوجستية والتعليم — في كل مكان يعمل الآلية نفسها: الاستماع إلى المستخدم، واستدعاء واجهات برمجة التطبيقات اللازمة، وتقديم رد متماسك بالصوت.

ماذا يعني هذا

يخرج الذكاء الاصطناعي الصوتي من المختبرات إلى المنتجات الحقيقية. بالنسبة للأعمال التجارية، هذا يعني: إضافة قناة تفاعل صوتية دون استثمارات كبيرة في البحث والتطوير. بالنسبة للمهندسين — كود نموذجي أقل، المزيد من الوقت لمنطق التطبيق. يزيل Stream Vision Agents الحاجز التقني الذي كان يثبط الذكاء الاصطناعي في الوقت الفعلي سابقاً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…