أوضحت Lemana Tech كيف جمعت بين LLM وRAG وML التقليدي في الدعم الفني
شرحت Lemana Tech كيف أعادت هيكلة الدعم بعد نمو عدد الطلبات: أبقت التصنيف واسع النطاق على ML التقليدي، وفعّلت LLM مع RAG فقط للاستفسارات المعقدة الخاصة…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
شاركت شركة ليمانا تك كيف أعادت هيكلة أتمتة Service Desk بعد زيادة في حجم الطلبات. لم تستبدل الشركة كل الدعم بنموذج واحد كبير، بل قامت بتجميع نظام هجين: تركت التصنيف الجماعي للتعلم الآلي الكلاسيكي، وقامت بربط LLM مع RAG فقط حيث يوفر قيمة حقيقية.
لماذا التعلم الآلي الكلاسيكي لم يكن كافياً
داخل نظام ليمانا تك البيئي، توجد أكثر من 500 نظام عمل، و2500 عملية خدمة، وحوالي 100 ألف طلب دعم شهري. لمثل هذا الحمل، تكون جودة النموذج مهمة، لكن كذلك تكلفة الخطأ وسرعة الاستجابة وتكلفة الحوسبة. عملت المكدس الأساسي القائم على التعزيز و TF-IDF بشكل جيد لفترة طويلة: نموذج يحتوي على ميزات إضافية مثل المسمى الوظيفي ومكان العمل ووقت الطلب قدم F1 حوالي 0.86 وغطى جزءاً كبيراً من الطرق المعتادة. لكن مع نمو عدد السيناريوهات، لم يعد هذا كافياً.
اختبرت الفريق LSTM و GRU و BERT و RoBERTa و Electra وموديلات Yandex Foundation Models وموصلات LoRA للنماذج اللغوية المفتوحة. خسرت بعض الأساليب أمام التعزيز في المقاييس، وكان البعض الآخر مكلفاً جداً في التدريب. في النهاية، لم تأتِ أفضل نتيجة للتصنيف من نهج "نقي" للنموذج اللغوي، بل من محول مع ميزات جدولية إضافية واهتمام إضافي: رفع هذا النظام F1 macro إلى 0.89 وأخذ في الاعتبار بشكل أفضل سياق كل موظف.
حيث يتم تفعيل RAG
النموذج اللغوي في هذه البنية لا يحاول حل كل شيء. يتم تفعيله فقط في فئات الطلبات حيث يحتاج المستخدم إلى إجابة ذات معنى من الوثائق الداخلية، وليس مجرد توجيه صحيح للتذكرة. أحد الأمثلة هو دعم منصة MLOps، حيث يحتاج الموظفون إلى إجابات حول Kubeflow و Jenkins والأنابيب الداخلية.
هنا ينتقل الطلب إلى الدردشة، ويمر عبر المصنف، ويدخل حلقة RAG بناءً على Qwen2.5 8B مع embedder مخصص. إذا تم العثور على الإجابة في قاعدة المعرفة، يحصل المستخدم عليها في حوالي 60 ثانية.
إذا لم يكن النموذج متأكداً من النتيجة، أو إذا ضغط الشخص على الأمر للانتقال إلى متخصص، ينتقل التذكرة على الفور إلى خبير حي دون انتظار SLA العادي. هذه نقطة مهمة: النموذج اللغوي لا يضع حاجزاً غير ضروري أمام الإنسان، بل يعمل كطبقة أولى سريعة حيث يمكن توفير وقت المتخصصين المكلفين L4 مع الحفاظ على السيطرة على الجودة.
- يتم استخدام Qwen2.5 8B في نسخة محسّنة لمعالج CPU
- تم تدريب embedder المخصص على 10000 ثلاثية
- دقة البحث في قاعدة المعرفة وصلت إلى 92% Hit@3
- يتم التصعيد عند درجة ثقة أقل من 0.7
- يمكن للمستخدم الانتقال فوراً إلى إنسان
ما الذي نجح أفضل
جزء منفصل من الحالة هو الحل التلقائي. وجدت الفريق أنماطاً متكررة من الطلبات يمكن إغلاقها بدون مشاركة الدعم، لكنها لم تقم بأتمتة عمياء لجميع الردود المتكررة. للتصفية، استخدمت Qwen2.5 14B: قيّم النموذج ما إذا كان بإمكان الشخص حقاً حل المشكلة بنفسه من خلال التعليمات أم أنه بدون موظف لن ينجح شيء. هذا استبعد الأنماط الخاطئة مثل إعادة تعيين كلمة المرور، حيث تكون الرسالة قياسية، لكن الإجراء لا يزال يجب أن ينفذه متخصص.
«استخدام النموذج اللغوي في كل مكان، كما هو شائع الآن، ليس النهج الصحيح.»
بعد هذا الفلترة، ما يعمل في الإنتاج مرة أخرى ليس النموذج اللغوي، بل نموذج خفيف—الانحدار اللوجستي. يتعلم بسرعة، لا يكلف تقريباً أي شيء على الاستدلال، ويمكن أن يخدم بشكل مستمر تدفق الطلبات. النتيجة: تقرير ليمانا تك عن نمو التصنيف المؤتمت من 55% إلى 76%، وزيادة في دقة التصنيف إلى 92% مع الأخذ في الاعتبار الحدود، وتسريع 20 مرة في الحلول التلقائية والاستجابات الناجحة للروبوت. لم يستبدل النموذج اللغوي هنا التعلم الآلي الكلاسيكي، بل احتل مكاناً ضيقاً لكن قيماً في السلسلة.
ماذا يعني هذا
توضح حالة ليمانا تك جيداً المنطق الناضج الحالي لنشر الذكاء الاصطناعي التوليدي في الدعم: لا يتعين على نماذج اللغة المكلفة أن تكون أساس النظام بأكمله. غالباً ما تأتي أفضل نتيجة من هجين حيث يقوم التعلم الآلي الكلاسيكي بفرز التدفق بسرعة، و RAG يجيب فقط في مناطق المجال المعقدة، والإنسان يتصل بدون احتكاك إذا كانت ثقة النموذج غير كافية. بالنسبة لفرق المؤسسات، هذا هو على الأرجح مسار أكثر واقعية من محاولة نقل كل Service Desk إلى نموذج عام واحد.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.