Habr AI→ المصدر

كيف يساعد BERTopic مع LLM محلية شركة Rostelecom في تحليل كميات كبيرة من النصوص

قدّم مطور NLP من Rostelecom خط أنابيب BERTopic لأتمتة تحليل كميات كبيرة من النصوص بالكامل — المراجعات وطلبات الدعم والتعليقات ووسائل التواصل الاجتماعي. التحسين

كيف يساعد BERTopic مع LLM محلية شركة Rostelecom في تحليل كميات كبيرة من النصوص
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

أتمتة تحليل النصوص هي واحدة من أكثر المهام كثافة في استهلاك العمالة والمقللة من شأنها في معالجة اللغات الطبيعية. عندما تتلقى الشركة عشرات الآلاف من المراجعات والطلبات لدعم العملاء أو التعليقات يومياً، تصبح التصنيفات اليدوية ليست مستحيلة فحسب، بل لا معنى لها من وجهة نظر العائد على الاستثمار. اقترح أنطون، مهندس معالجة اللغات الطبيعية في روستيليكوم، حلاً: خط أنابيب قائم على BERTopic مع نموذج لغة محلي مدمج للحصول على أسماء مواضيع قابلة للتفسير.

لماذا يتم الاحتياج لأتمتة تحليل النصوص

تعتبر أحجام النصوص الكبيرة منجماً ذهبياً للبيانات غير المنظمة لأي شركة. في المراجعات توجد شكاوى حول أخطاء ونقائص محددة، وفي طلبات الدعم تظهر المشاكل المنهجية والنقاط الضعيفة، وفي التعليقات على وسائل التواصل الاجتماعي توجد أفكار للميزات والمنتجات الجديدة. لكن فحص كل هذا يدويا، حتى فريق صغير من المحللين لا يستطيع فعله في يوم أو أسبوع. الطريقة الكلاسيكية هي قراءة كل نص يدويا، وفهم جوهره، وتوزيعه بين الفئات. مع أحجام 10000 أو أكثر من النصوص، يصبح هذا غير اقتصادي وعسيراً على المتخصص والمستغرق للوقت. بالإضافة إلى ذلك، يتم إضافة الذاتية: محلل واحد سيسند الشكوى إلى فئة "مشاكل الشبكة"، وآخر إلى "جودة الخدمة"، وثالث إلى "أخرى". يتم فقدان الاتساق، وتصبح الاستنتاجات غير موثوقة.

كيف يحل BERTopic مشكلة التجميع

BERTopic هو إطار عمل يجمع بين عدة تقنيات للتعلم الآلي للكشف التلقائي عن المواضيع في النصوص. تعمل العملية بهذه الطريقة:

  • التضمينات (BERT): يتم تحويل كل نص إلى متجه من الأرقام (تضمين)، حيث تكون النصوص المتشابهة دلالياً قريبة في الفضاء متعدد الأبعاد. بالنسبة للنص الروسي، يمكنك استخدام ruBERT أو نماذج أخرى.
  • التجميع (HDBSCAN): تجد خوارزمية سريعة تجمعات طبيعية من النصوص في هذا الفضاء دون الحاجة إلى معرفة عدد المواضيع مقدماً.
  • التفسير: ينتج BERTopic اسماً لكل مجموعة بناءً على TF-IDF — أكثر الكلمات أهمية في المجموعة.

النتيجة؟ من فوضى 50000 نص، تحصل على، على سبيل المثال، 15 موضوعاً واضحاً وطبيعياً: "مشاكل الإنترنت"، "أسئلة الفواتير"، "الأخطاء في تطبيق الهاتف المحمول"، "طلبات الفوائد" وهكذا. ومع ذلك، هناك تحذير. غالباً ما ينتج التفسير القياسي لـ BERTopic أسماءً غريبة مثل "مشترك_خدمة_رقم" أو "خطأ_خطأ_خطأ"، والتي يصعب شرحها للأعمال. هنا يأتي دور نموذج اللغة.

دمج نموذج لغة محلي للتفسير

بدلاً من الاختيار الميكانيكي للكلمات من المجموعة، يقرأ نموذج لغة محلي (مثل Mistral 7B أو Llama 2) الكلمات الرئيسية والمستندات الرئيسية للمجموعة، ثم ينتج وصفاً كاملاً باللغة الروسية: "يشتكي العملاء من بطء سرعة الإنترنت في المناطق الريفية، خاصة في عطلات نهاية الأسبوع".

"يحمي دمج نموذج اللغة المحلي سرية البيانات: تبقى جميع البيانات الحالية داخل الشركة، دون إرسالها إلى

OpenAI أو Claude API أو خدمات سحابية أخرى. هذا حاسم للشركات التي تتعامل مع معلومات حساسة"، كما يؤكد أنطون.

علاوة على ذلك، يعمل نموذج محلي بشكل أسرع من طلبات API ويكون مستقلاً تماماً عن الحصص والحدود والتكلفة لكل رمز معالج. يعمل خط الأنابيب بدون إنترنت، مما يقلل من الكمون ويزيد من موثوقية النظام.

النتائج العملية والتوسع

يسمح خط الأنابيب من روستيليكوم في غضون ساعات قليلة بفعل ما كان يستغرق سابقاً عدة أسابيع من العمل اليدوي:

1. تحميل مجموعة من النصوص في BERTopic (يمكن أن تكون آلاف أو عشرات آلاف السجلات) 2. الحصول على مجموعات جاهزة مع وصفات مواضيع تم إنشاؤها بواسطة نموذج اللغة بلغة تفهمها الأعمال 3. تصدير النتائج إلى Excel أو CSV أو قاعدة بيانات للعمل الإضافي من قبل المحللين ومديري المنتجات

بالإضافة إلى إمكانية إعادة الاستخدام: وصل دفعة جديدة إلى الدعم؟ يتم إعادة تدريب خط الأنابيب في دقائق ويعطي النتيجة منظمة مرة أخرى.

ماذا يعني هذا للصناعة

تتحرك أدوات معالجة اللغات الطبيعية بنشاط خارج المختبر والأوراق العلمية إلى الإنتاج الفعلي. عندما يستطيع مهندس واحد في يوم واحد تجميع خط أنابيب كاملاً يتطلب سابقاً أسبوعين إلى ثلاثة أسابيع من العمل اليدوي وخبرة فريق كامل — هذا يعني أن معالجة اللغات الطبيعية تصبح أداة عملية، وليست تجربة علمية، متاحة فقط لشركات تكنولوجيا المعلومات الكبرى.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…