حلول الدفع المتقدمة أطلقت مساعد صوتي بالذكاء الاصطناعي للمكالمات في نسخة تجريبية بدون فريق التعلم الآلي
أظهرت حلول الدفع المتقدمة حالة نادرة في السوق: تم بناء مساعد صوتي بالذكاء الاصطناعي للمكالمات ليس من قبل مهندسي التعلم الآلي، بل من قبل 12 مطور backend. في…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
روت شركة "حلول الدفع المتقدمة" كيف أطلقت مساعد ذكاء اصطناعي صوتي للمكالمات في مرحلة تجريبية بدون فريق التعلم الآلي الخاص بها. في ستة أشهر، بنى 12 مطور backend نظام يقترح للمدير في الوقت الفعلي كيفية الرد على العميل ويتناسب مع تأخير يبلغ حوالي ثانيتين.
كيف تم بناء النموذج الأولي
داخل الشركة حصل المشروع على اسم "السوفلير". مهمته هي الاستماع إلى محادثة تم نسخها بالفعل، وفهم أي منتج يتم مناقشته، ملاحظة اعتراضات العميل وإظهار فوري لمقترح نصي للمدير. تم تجميع المكدس النهائي في Python و FastAPI و PostgreSQL، بينما تولت مصنفات BERT والنموذج المحلي Qwen 8B التصنيف والتوليد. بالنسبة للعمل هذه طريقة لتقليل الضغط على الموجهين وإحضار الموظفين الجدد إلى مؤشرات الأداء الرئيسية بشكل أسرع، خاصة عندما يحتوي النظام البيئي على أكثر من 35 منتج ويحتاج المدير إلى الاحتفاظ بسيناريوهات كثيرة جداً في الذاكرة. كان القيد الرئيسي صارماً: يحصل النظام على 1.5–2 ثانية فقط للرد، وإلا فقد الاقتراح معنى أثناء الحوار المباشر.
وصل الفريق إلى نموذج أولي فعال بسرعة. في الأسابيع الثلاثة الأولى، أخذ المطورون نصوص محادثات مكتوبة من المكالمات، وادرب مصنفات BERT على حوالي 1500 محادثة، وجمعوا قواعد معرفية بسيطة مع السيناريوهات وربطوا كل شيء من خلال الحث على نموذج GPT السحابي. تم صنع الواجهة في يوم واحد باستخدام Django. عمل هذا إثبات المفهوم ببطء، مع تأخير 10–15 ثانية، لكنه كان كافياً للدفاع عن الفكرة أمام العمل والحصول على الموافقة على النموذج الأولي. بدأ بعد ذلك العمل الهندسي الحقيقي لتقليل التأخيرات والاستقرار والتكاملات.
لماذا تم تبسيط كل شيء
في البداية، صمم الفريق، كما هو الحال غالباً في مشاريع الذكاء الاصطناعي، نظام طموح جداً: خط أنابيبه الصوتي الخاص، عدة مصنفات معقدة، ضبط دقيق لنموذج لغة كبير، قاعدة بيانات متجهة وحتى حلقة التعلم الذاتي. لكن أصبح واضحاً بسرعة إلى حد ما أن هذا المسار سيمد الإطلاق إلى 12–18 شهراً ويزيد بشكل حاد من احتمالية الفشل. بدلاً من محاولة بناء البنية المعمارية "المثالية"، بدأ المطورون بشكل منهجي في إزالة كل ما يمكن الاستغناء عنه في الإصدار الأول.
"لم نقاتل المشاكل، بل أعدنا تصميم النظام بحيث لا تنشأ هذه المشاكل فيه."
- رفضوا الضبط الدقيق لصالح RAG لتجنب قضاء أشهر في التعليق والحد من خطر الهلوسات.
- لم يكتبوا نسختهم الخاصة من النسخ وأخذوا مقاطع نصية جاهزة من Voximplant.
- بسّطوا مصنف الاعتراضات: بدلاً من 15+ فئة تركوا مخطط ثنائي "يوجد اعتراض / لا يوجد اعتراض".
- لم يسحبوا قاعدة بيانات متجهة ثقيلة لبضعة ميجابايت من البيانات وحملوا ملفات JSON منظمة مباشرة في الذاكرة.
- انتقلوا من واجهات برمجة تطبيقات السحابة إلى Qwen 8B المحلي على خادم GPU للبقاء ضمن التأخير وعدم إرسال البيانات الحساسة خارج المحيط.
تبين أن هذه المجموعة من التسويات كانت الأساسية. قدمت نماذج السحابة ردوداً في 7–20 ثانية، و Qwen 32B على الرغم من الرد بشكل أفضل كانت لا تزال لا تجتاز اختبار الوقت. اتضح أن Qwen 8B الأكثر إحكاماً كانت جيدة بما يكفي للاقتراحات للمدير واستقرت التأخير حول ثانيتين. وفي الوقت نفسه، أغلق النشر المحلي أسئلة الأمان: لا تحتاج نصوص المحادثات إلى إرسالها إلى خدمات خارجية، مما يعني أنهم لم يضطروا إلى بناء طبقة منفصلة من إخفاء البيانات الشخصية والدفع مقابل ذلك بتأخيرات إضافية.
ما أظهرته المرحلة التجريبية
تبين أن المشكلة الأقل تقديراً لم تكن النماذج بل البيانات. أخذ الفريق 200 مكالمة، وقسمها بين 12 مشاركاً واصطدم بسرعة بجدار التعليق اليدوي: لتصنيف الاعتراضات بشكل صحيح، لا يكفي تمييز عبارة، تحتاج إلى فهم سياق المحادثة ومنطق المبيعات. نتيجة لذلك، أعاد المطورون صياغة بيان المشكلة نفسها. بدلاً من محاولة "تعليم الذكاء الاصطناعي التفكير مثل الخبير"، ركزوا على هدف أضيق: لاحظ في الوقت المناسب عندما يحتاج المدير إلى المساعدة، ثم اسحب السيناريو اللازم وأنشئ اقتراحاً.
بنهاية المرحلة التجريبية، حقق النظام تأخيراً متوسطاً بحوالي ثانيتين، يرتفع إلى ثلاث فقط في 2–3٪ من الحالات. أعطى تصنيف الخدمات دقة أعلى من 70٪، والتعرف على الكلام — من 92٪ اعتماداً على جودة الاتصال. يكتب الفريق أن المرحلة التجريبية أعطت بالفعل تأثيراً نوعياً: ظهرت الإشارات الأولى على الملاءمة وتقليل الضغط على الموجهين والفائدة العامة للعاملين. لكن لا توجد استنتاجات ذات دلالة إحصائية على التحويل ومؤشرات الأداء الرئيسية حتى الآن — لهذا يحتاج المنتج إلى التوسع والتكامل السلس مباشرة في نظام إدارة علاقات العملاء.
ماذا يعني هذا
يوضح هذا الحالة جيداً أن منتج الذكاء الاصطناعي الداخلي لا يتطلب دائماً فريق التعلم الآلي جاهز من الصفر. إذا كانت الشركة تتمتع بمهندسي backend أقوياء وألم عمل واضح وإمكانية الوصول إلى العمليات، يمكن تجميع النموذج الأولي بشكل أسرع من خلال التبسيط الصارم للعمارة والرفض من المكونات "الذكية" غير الضرورية. الدرس الرئيسي هنا ليس في اختيار نموذج معين بل في الانضباط: أولاً حل مشكلة العمل، ثم تحقق من قيود السرعة والأمان، وفقط بعد ذلك قم بتعقيد المكدس.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.