Hugging Face Blog→ المصدر

Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI

Новое исследование ServiceNow-AI показало, что большинство голосовых агентов с трудом понимают людей, говорящих одновременно на двух языках (code-switching). Ко

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
Голосовые агенты не готовы к двуязычным клиентам. Исследование ServiceNow-AI
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

وكلاء الصوت يؤدون بشكل ضعيف مع العملاء ثنائيي اللغة. تم إثبات ذلك من خلال بحث من فريق ServiceNow-AI، الذي اختبر سبعة أنظمة شهيرة للتعرف على الكلام في أمثلة على التحويل الرمزي — عندما ينتقل الأشخاص بسلاسة من لغة إلى أخرى في بيان واحد، متشابكين الكلمات والعبارات.

المشكلة تبقى حادة

أكثر من نصف سكان العالم يتحدثون بلغتين أو أكثر. بالنسبة لهم، من الطبيعي خلط اللغات في الكلام — خاصة عند مناقشة المصطلحات المتخصصة أو في البيئات غير الرسمية. ومع ذلك، يتم تدريب مساعدات الصوت والوكلاء بشكل أساسي على البيانات أحادية اللغة وغالباً لا يفهمون عندما ينتقل العميل بين اللغات. يصبح هذا مشكلة حرجة للشركات التي تخدم الأسواق متعددة اللغات من خلال واجهات صوتية. خدمات الدعم والحجز والاستشارات — كل ذلك يعمل بشكل أسوأ إذا كان العميل معتاداً على التحدث باللغتين في نفس الوقت. قررت ServiceNow-AI قياس مدى هذه المشكلة واكتشاف أي الأنظمة تعمل بشكل أفضل.

كيفية وما تم اختباره

أنشأ الباحثون مجموعة بيانات اصطناعية تتكون من 918 بياناً عبر أربعة أزواج لغوية: الإسبانية-الإنجليزية والفرنسية-الإنجليزية (اللهجة الكندية) والألمانية-الإنجليزية. تم أخذ الأمثلة من سيناريوهات عالمية حقيقية لعمليات الموارد البشرية ودعم تكنولوجيا المعلومات — حوارات تحدث فعلاً في الشركات متعددة اللغات. تم تقييم كل واحد من أنظمة التعرف على الكلام الآلي السبعة (ASR) وفقاً لثلاث مقاييس:

  • WER — دقة النسخ القياسية (Word Error Rate)
  • SWER — الأخطاء التي تغير معنى البيان (Semantic WER)
  • AER — الأخطاء التي تؤثر على فهم النظام للمعنى (Answer Error Rate)

تساعد مجموعة المقاييس هذه على فهم ليس فقط ما إذا كان النظام يرتكب أخطاء، بل مدى خطورة هذه الأخطاء.

النتائج: هناك قادة

من حيث WER، برز قائدان: ElevenLabs Scribe V2 و AssemblyAI Universal-3 Pro. احتل Google Gemini Flash 3 المركز الثالث، مما يدل على نتيجة قوية. في غضون ذلك، أظهر OpenAI Whisper نتائج ضعيفة — النظام بشكل افتراضي لا ينسخ الكلام ثنائي اللغة، بل يترجمه، وهذا لا ينسجم مع المهمة. عندما تكون هناك حاجة إلى النسخ للكلام مع التحويل الرمزي، يصبح Whisper غير مفيد. بشكل مثير للاهتمام، تظهر أفضل النماذج حداً أدنى من تدهور الدقة مقارنة بمستويات الأساس أحادية اللغة. هذا يعني أن التحويل الرمزي بالنسبة لهم ليس كارثة، بل ببساطة مهمة أكثر تعقيداً قليلاً.

نمط غريب من الأخطاء

كشف تحليل الأخطاء عن شيء غير متوقع: الكلمات باللغة الإنجليزية المضمنة ارتكبت أخطاء أكثر من اللغة الأساسية (الإسبانية أو الفرنسية أو الألمانية). هذا متناقض لأن الإنجليزية عادة ما تكون أسهل لهذه النماذج للتعرف عليها في السياق أحادي اللغة. يقترح الباحثون سببين. أولاً، قد يكون هذا مشكلة في المفردات التقنية والمتخصصة، التي تكون أكثر شيوعاً في الإنجليزية. ثانياً، تواجه النماذج صعوبة في التكيف عند تبديل اللغة في منتصف الجملة. "دماغ" النموذج، إذا جاز التعبير، يصبح "مشتت الانتباه" باللغة الجديدة ويفتقد التفاصيل.

ما يعنيه هذا

أنظمة الصوت من الجيل الجديد تتحسن، لكن ثنائية اللغة تبقى حالة معقدة. بالنسبة للأعمال التجارية، هذا يعني شيئين. أولاً، إذا كنت تستخدم وكلاء صوتيين لدعم العملاء متعددي اللغات، فإن اختيار نظام ASR حرج — الفرق بين ElevenLabs و Whisper قد يكون في عشرات النسبة المئوية. ثانياً، هذا مجال التطوير النشط، وفي الإصدارات القادمة، ستتحسن النتائج على الأرجح.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…