أظهرت Suricata كيفية تدريب أنظمة كشف الهجمات المعتمدة على ML على حركة مرور حقيقية
اختبر مؤلفو الدراسة، بالاعتماد على Suricata وأداتهم الخاصة session_analyzer، ما إذا كان بالإمكان تدريب أنظمة IDS المعتمدة على ML ليس على هجمات مخبرية بل على…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أظهرت Suricata كيفية تدريب أنظمة كشف الهجمات القائمة على تعلم الآلة على حركة المرور الفعلية
يمكن أن تكون Suricata القائمة على التوقيعات ليست فقط أداة كشف، بل أيضاً مصدراً لتسمية البيانات لنموذج تعلم آلي لكشف الهجمات. اختبر مؤلفو الدراسة هذه الفكرة على حركة المرور الفعلية للشركة ووجدوا سيناريو قابل للعمل، وإن لم يكن شاملاً، لتدريب نظام كشف الهجمات القائم على تعلم الآلة دون شن هجمات اصطناعية على المورد المحمي.
كيفية إعداد التجربة
تم نشر التجربة على منصة الاختبار الخاصة بشركة Ideco. تلقى أحد الخوادم حركة المرور الفعلية للشركة وأرسلها عبر بوابة جدار الحماية المتقدمة مع نظام Suricata IDS معدل وتوقيعات حالية. قام خادم ثانٍ بتحليل نفس تيار حركة المرور باستخدام أداة session_analyzer الخاصة به، والتي جمعت الخصائص لكل جلسة شبكية.
لم يقم المؤلفون بشكل متعمد ببناء بنية تحتية معملية تحتوي على هجمات اصطناعية: الهدف كان فهم ما إذا كان يمكن تدريب نموذج مباشرة على شبكة تعمل بالفعل وعلى أحداث أمان فعلية. استمرت عملية الجمع لمدة أسبوعين—من 26 يونيو إلى 10 يوليو 2025. بعد التصفية، بقي 55.
548.971 اتصالاً شبكياً. من بين 118 ميزة أصلية، اختاروا معلومات العنوان و 10 من أكثر خصائص الجلسة إفادة، ثم قارنوها مع عمليات كشف Suricata وأسندوا تسميات Benign أو Attack.
كانت النتيجة مجموعة بيانات ثنائية حيث لعب دور "المعلم" للنموذج ليس من قبل الأشخاص أو التسمية اليدوية، بل من قبل نظام IDS المبني على التوقيعات والمعاير بالفعل.
حيث ينهار النظام
اتضح أن المشكلة الرئيسية لم تكن في اختيار الخوارزمية، بل في جودة التسمية. الوقت المسجل للحدث في Suricata لا يتطابق مع وقت بدء الاتصال الشبكي: قد يتعلق الكشف بحزمة تصل بعد ثوان من بدء الجلسة، وفي حالة الهجمات البطيئة قد يتجاوز الفرق الزمني 20 ثانية. بالإضافة إلى ذلك، يمكن ملاحظة نفس حركة المرور قبل وبعد البوابة، مما يعني أن هجمة واحدة تقابل اتصالين بمعلومات عنوان مختلفة. إذا لم تؤخذ هذه الحالات في الاعتبار، يدخل الضوضاء إلى مجموعة البيانات، ويبدأ النموذج في التعلم من أمثلة متناقضة.
- لا تصلح جميع معرفات قواعد Suricata للتسمية، لا سيما القواعد المرتبطة فقط بـ IP أو SNI أو عناوين URL محددة؛
- بالنسبة لبعض الهجمات، بما في ذلك أنواع مختلفة من فحص المنافذ، فإن مجموعة الخصائص الحالية غير كافية ببساطة؛
- يجب أن تغطي العينة التدريبية ما لا يقل عن أسبوع واحد من حركة المرور الفعلية، بما في ذلك أيام العمل والعطل نهاية الأسبوع؛
- يجب إعادة تدريب النموذج عند ظهور أنواع هجمات جديدة، أو تغيير التوقيعات، أو تغيير البنية التحتية للشبكة، أو تغيير أنماط عمل الموظفين.
من هنا جاءت النتيجة الأساسية حول المتجهات "السيئة": إذا كان اتصالان يمتلكان خصائص متطابقة أو شبه متطابقة ولكن تسميات مختلفة، فإن جودة التصنيف تنخفض بشكل حاد. حتى التعزيز المتدرج القوي مثل CatBoost لا يساعد في هذه الحالة. تساعد بعض أحداث Suricata النموذج، بينما تضيف أخرى فقط إنذارات كاذبة. بعض التوقيعات من الأفضل في النهاية استبعادها من التسمية وإرجاع الاتصالات المقابلة إلى فئة Benign، وإلا فإن نظام كشف الهجمات القائم على تعلم الآلة يرث الأخطاء من طبقة التوقيع الأساسية.
ما أظهرته النتائج
رغم جميع القيود، تم التحقق من الفرضية بشكل عام: يمكن بناء نظام كشف هجمات قائم على تعلم الآلة على مستوى الشبكة على شبكة تعمل بالفعل، باستخدام أحداث Suricata كمصدر للتسميات. هذا مريح لأن القواعس التوقيعات المعايرة بدقة تقوم بتصفية كمية كبيرة من الإنذارات الضوضائية التي لن يستجيب لها المشغلون على أي حال. في هذا الوضع، تصبح Suricata ليس فقط نظام كشف بل أيضاً مرشح جودة لمجموعة التدريب.
أفضل النتيجة العملية في الدراسة كانت درجة F1 تبلغ 0.98 مع التسمية الصحيحة لمجموعة البيانات. لكن المؤلفين يشيرون بصراحة إلى حدود هذا النهج.
أولاً، حلوا مشكلة التصنيف الثنائي، لكن بالنسبة لبوابة جدار الحماية المتقدمة الفعلية فهذا غير كافٍ: تحتاج الشركة إلى فهم أي نوع دقيق من الهجمات تم اكتشافه وكيفية الاستجابة لها. ثانياً، أجريت التجربة على شبكة شركة المستخدم، وليس على خدمة محددة محمية مثل خادم الويب، لذلك فإن نقل الاستنتاجات إلى شبكات أخرى يتطلب تحققاً منفصلاً.
ماذا يعني هذا
توضح الدراسة طريقة عملية من الحماية المبنية على التوقيعات إلى نموذج قائم على تعلم الآلة دون الحاجة إلى ساحة اختبار مكلفة وتسمية يدوية لملايين الجلسات. لكنها تذكرنا أيضاً بالنقطة الأساسية: في الأمن السيبراني، تبدأ جودة تعلم الآلة ليس باختيار الخوارزمية، بل بمدى عناية ربطك للإنذارات الفعلية وخصائص الشبكة وسياق البنية التحتية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.