إطلاق بوت مكافحة الرسائل غير المرغوبة Tab لـ Telegram مع شبكة عصبية مخصصة والتعلم من المشرفين
يحتوي Telegram الآن على Tab، وهو بوت مكافحة رسائل غير مرغوبة يصنف الرسائل باستخدام شبكة عصبية خاصة به بدلاً من نموذج مُدرب مسبقاً. قام المطور يدويًا بجمع…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
ظهر في تيليجرام بوت مكافحة للرسائل غير المرغوبة يُسمى Tab، يستخدم ليس نموذجاً جاهزاً من جهات خارجية، بل شبكة عصبية خاصة به من تأليف المطور. يعمل المشروع في الدردشات منذ عدة أشهر، ويبقى مجاناً للاختبار، ويجمع البيانات لإعادة تدريب لاحقة.
كيف يعمل البوت
في قلب Tab يوجد نموذج لتصنيف الرسائل الثنائي: يقرر البوت ما إذا كان النص رسالة غير مرغوبة أم لا. لم يستخدم المطور حلولاً جاهزة من Hugging Face، بل بنى البنية المعمارية بنفسه، معتمداً على نهج LSTM. المنطق واضح هنا: بالنسبة للرسائل القصيرة من تيليجرام، من المهم الحفاظ على السياق، والجمع بين شبكة عصبية متكررة مع آليات الانتباه يوفر بديلاً أخف وأكثر قابلية للإدارة من النماذج الكبيرة العامة.
بالإضافة إلى الشبكة العصبية نفسها، تعمل عدة قواعد أخرى، وهي مسؤولة ليس فقط عن الكشف عن الرسائل المريبة، بل أيضاً عن تقليل عدد الحظر الخاطئ. يأخذ البوت بعين الاعتبار بشكل منفصل ما إذا كان المستخدم موجوداً في قاعدة بيانات مرسلي الرسائل غير المرغوبة، وبناءً على ذلك، إما يحذف الرسالة مباشرة أو يترك القرار النهائي للمعتدل. يبدو هذا النهج الهجين أكثر عملية من الأتمتة البحتة: خطر الخطأ في تصنيف النصوص لا يزال قائماً، خاصة في الدردشات المباشرة باللغة الحوارية.
البيانات والتدريب
اتضح أن أصعب جزء من المشروع لم يكن كود البوت، بل تحضير البيانات. لم يجد المطور مجموعة بيانات جاهزة وحديثة لرسائل تيليجرام غير المرغوبة باللغة الروسية، لذا كان على الموارد البشرية جمع البيانات يدوياً: بتحليل المجموعات العامة، ومراجعة الدردشات المليئة بالرسائل غير المرغوبة، وتصنيف الرسائل واحدة تلو الأخرى. نمت مجموعة البيانات الآن إلى أكثر من 25 ألف مثال، والدقة الرئيسية للتصنيف تعتمد عليها.
تم أيضاً دمج آلية تغذية راجعة من المعتدلين في البوت. إذا تم وضع علامة خاطئة على رسالة كرسالة غير مرغوبة، يمكن للمعتدل تأكيد أنها نص عادي، وتذهب مثل هذه الحالة إلى مجموعة البيانات كإيجابية كاذبة. يسمح هذا ليس فقط بتنظيف الدردشة، بل أيضاً بتحسين النموذج تدريجياً على أمثلة حدية حقيقية، والتي عادة ما تقلل من جودة أنظمة مكافحة الرسائل غير المرغوبة.
"لا أقدم هذا الحل على أنه قاتل جميع الرسائل غير المرغوبة."
الأوضاع والقيود
حالياً، يدعم Tab سيناريوهين: وضع معيار أكثر حذراً ووضع تلقائي أكثر صرامة. في الوضع المعياري، يشغل البوت أولاً الرسالة عبر النموذج، ثم ينظر إلى إشارات إضافية، بما في ذلك وجود المستخدم في قاعدة بيانات مرسلي الرسائل غير المرغوبة. إذا كانت الثقة غير كافية، يحصل الإنسان على القرار.
هذا يقلل من مخاطر معاقبة عضو دردشة عادي على نص مثير للجدل.
- في الوضع المعياري، قد تذهب الرسالة المريبة لمراجعة المعتدل
- في الوضع التلقائي، يتم حذف الرسالة غير المرغوبة فوراً بعد تفعيل النموذج
- يرتبط الحظر أكثر بتزامن عاملين: تصنيف الرسالة غير المرغوبة والوجود في قاعدة البيانات
- يمكن للمستخدمين الإبلاغ عن الرسائل باستخدام الأمر /spam
- يمكن لمسؤولي الدردشة تبديل نمط عمل البوت
تكمن المشكلة الرئيسية في مثل هذه الأنظمة في تطور الرسائل غير المرغوبة نفسها. يخفي مرسلو الرسائل غير المرغوبة الكلمات بأحرف متشابهة من أبجديات أخرى، ويدرجون مسافات بين الأحرف، ويغيرون طريقة عرض وسياق الرسالة. هذا يعني أنه لا يمكن تدريب النموذج مرة واحدة وتركه دون إشراف: فهو يحتاج إلى تدفق مستمر من الأمثلة الجديدة وإعادة التدريب والفحوصات. تتضمن خطط المطور لوحة معلومات عامة بإحصائيات فورية وأتمتة إضافية للتصنيف، لأن الخطوة اليدوية هي التي تحد حالياً من القابلية للتوسع أكثر من غيرها.
ما يعنيه هذا
يُظهر Tab أنه حتى بدون فريق كبير والوصول إلى البنية التحتية الثقيلة، يمكن بناء أداة ذكاء اصطناعي تطبيقية فعالة لمعالجة مشكلة محددة في دردشات تيليجرام. بالنسبة للسوق، هذه إشارة أخرى: غالباً ما تعطي النماذج المتخصصة والإشراف البشري الحذر نتائج أكثر فائدة من محاولة حل كل شيء بنموذج عصبي عام كبير.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.