Habr AI→ المصدر

وكيل صوتي AI كان يكذب على العملاء ويخلط بين المتصلين — المطور اكتشف أن السبب لم يكن في الـ prompt

ثلاثة أشهر في بيئة الإنتاج كانت كافية ليكذب الوكيل الصوتي AI على عميل بشأن مسؤول غير موجود، ويقضي شهرًا كاملًا وهو يقدّم تخليقًا صوتيًا عاديًا على أنه «صوت…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
وكيل صوتي AI كان يكذب على العملاء ويخلط بين المتصلين — المطور اكتشف أن السبب لم يكن في الـ prompt
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

قضى مطور وكيل ذكاء اصطناعي صوتي للعمل ثلاثة أشهر في ظروف الإنتاج — ووثّق جميع العقبات: الوكيل كان يكذب، يخلط بين العملاء، وتنسيخ الصوت لم يعمل كما هو مقصود.

ثلاث إخفاقات رئيسية للوكيل

خلال الأشهر الأولى في الإنتاج، تمكن وكيل الصوت من التميز بعدة طرق.

الحادث الأول: قال الوكيل لأحد العملاء أن "مسؤول أليكسي" سيعيد الاتصال خلال ساعة. لم يكن أليكسي موجودًا — أنشأ الوكيل الاسم من سياق الاتصالات السابقة، مختلطًا أجزاء من الحوارات. انتظر العميل وقدم شكوى.

الخلل الثاني أكثر خطورة: بدأ الوكيل يتعامل مع جميع المكالمات الواردة كما لو كانت من نفس الشخص. لم تتم إعادة تعيين الجلسة بين المكالمات — انسكبت ذاكرة العميل السابق إلى المحادثة التالية. من الناحية التقنية، هذه مشكلة كلاسيكية للسياق المشترك بدون عزل صريح.

  • أطلق الوكيل على العميل الجديد اسم المتصل السابق
  • تذكر تفاصيل طلب عميل آخر واقترح "المتابعة بالدفع"
  • أكد اتفاقيات غير موجودة من الجلسات السابقة
  • اعتذر عن "تأخيرات" لم تحدث أبدًا — مختلطًا المكالمة الحالية بالسابقة

الحالة الثالثة — الأطول في الكشف. لمدة شهر كامل، كان الوكيل ينتج تركيب صوت قياسي بينما يخبر العملاء أنه "صوت مستنسخ". لم يتم توصيل استنساخ الصوت بسبب خطأ في الإعدادات، لكنه لم يرمِ استثناءً في أي مكان — فقط تدهور بصمت إلى التركيب القياسي.

لماذا التعليمات لا تصلح الأمر

رد فعل حدسي أولي — أضف إلى التعليمات "لا تخترع أسماءً"، "لا تتذكر المتصلين السابقين"، "تحقق دائمًا ما إذا كان هناك ملف صوتي". حاول المؤلف — ويشرح لماذا لا يعمل هذا بشكل منهجي.

نموذج اللغة لا يميز بين الحظر في التعليمات وبيانات سياق الجلسة. إذا هبط سجل مكالمة سابقة فعليًا في نافذة السياق — يستخدمها النموذج. لا يمكنك أن تأمر بتجنب ما هو موجود بالفعل في الذاكرة.

"التعليمات هي توصية، وليست حاجزًا معماريًا. الحاجز يجب أن يكون في الكود."

الحل هو عزل الحالة على مستوى البنية الأساسية: إعادة تعيين قسرية للسياق بين المكالمات، والتحقق من توفر الملف الصوتي قبل بدء المكالمة (ليس أثناءها)، والتحقق الصريح من كل واقعة قبل النطق.

المجموعة الروسية وخصوصياتها

يعمل المؤلف بالكامل على أدوات محلية: نموذج لغة روسي، ومزود تركيب صوت روسي، والهاتفية عبر مشغل محلي. هذا يفرض قيودًا معينة.

التوثيق لبعض الأدوات غير كامل أو متأخر عن واجهة البرمجيات. هذا هو السبب الدقيق في بقاء خطأ استنساخ الصوت غير مرئي: عندما لا يكون لدى المزود ملف صوتي، فإنه لا يرجع خطأً — فقط يرجع بصمت التركيب القياسي برمز 200.

كان يمكن الكشف عن الاستبدال فقط بتحليل الصوت الناتج أو التحقق الصريح من بيانات وصف الاستجابة.

دروس عملية من ثلاثة أشهر من التجربة:

  • تحقق من وجود جميع الموارد (الصوت، الملف الشخصي، الجلسة) قبل بدء العملية — ليس أثناءها
  • سجل ليس فقط الأخطاء بل الاستجابات "الناجحة": التدهور الصامت أخطر من العطل الصريح
  • عزل حالة الوكيل بين الجلسات على مستوى الكود، وليس على مستوى التعليمات
  • اختبر الإخراج الصوتي، وليس فقط السجلات النصية — التركيب والاستنساخ يبدويان مختلفين

ماذا يعني هذا

أوكيلات الذكاء الاصطناعي الصوتية في الإنتاج تنهار بشكل مختلف عن روبوتات الدردشة: الأخطاء تُسمع بصوت عالٍ، يسمعها العميل في الوقت الفعلي ولا يمكنه إعادة قراءتها أو تجاهلها. هذا يجعل الحذر المعماري حاسمًا.

معظم "السلوك الغريب" لوكيل صوتي — ليس هلوسات النموذج، بل ثقوب معمارية في الكود من حوله. يمكن إصلاحه. لكن ليس بالتعليمات.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

ما رأيك؟
جارٍ تحميل التعليقات…