حددت Positive Technologies أفضل المعايير لتقييم LLM في الأمن السيبراني
أطلقت Positive Technologies نظرة عامة شاملة على معايير مفتوحة لـ LLM في الأمن السيبراني. الاستنتاج الرئيسي: في اختبارات المعرفة، حتى النماذج الصغيرة نسبياً…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أصدرت شركة Positive Technologies تحليلاً مفصلاً للمعايير المفتوحة لتقييم نماذج اللغات الكبيرة في مهام الأمن السيبراني وتوصلت إلى استنتاج بسيط: اختبار نماذج اللغات الكبيرة على أساس المعرفة بالمصطلحات والمعايير والثغرات الأمنية فقط أصبح عملياً لا معنى له. حتى النماذج الصغيرة نسبياً تتفوق باستمرار على البشر في هذا المجال، بينما يظهر الفرق الحقيقي بين الأنظمة في المهام التي تتطلب ليس تذكر التعريفات بل اتخاذ إجراءات عملية: التحقيق في الحوادث وحل تحديات اختراق الأمان واكتشاف الثغرات وكتابة التصحيحات. يقترح مؤلف المراجعة تقسيم مثل هذه الاختبارات إلى فئتين.
الأولى هي المعايير الموسوعية حيث يجيب النموذج على أسئلة حول التشفير وأمان الشبكات والامتثال ومصفوفة MITRE ATT&CK والثغرات الأمنية ومواضيع أخرى. الثانية هي المعايير القائمة على المهارات أو معايير الإجراءات حيث يُتوقع من النموذج تقديم نتيجة عملية. المثال الأكثر إيضاحاً من المجموعة الأولى هو CyberMetric.
يحتوي على عشرة آلاف سؤال في سبعة مجالات، وحتى النماذج الأقدم مثل gpt-3.5-turbo حصلت على حوالي 85% بينما أظهر الخبراء ذوو الخبرة حوالي 75%. وفقاً لتقييم المؤلف فإن هذا الاختبار مفيد الآن بشكل أساسي للنماذج الصغيرة وتكميم المجال وسيناريوهات الفحص السريع.
معيار SECURE أكثر تعقيداً قليلاً حيث تم تجميعه من مواد حول MITRE ATT&CK و CVE و CWE و CISA. يتحقق ليس فقط من معرفة الحقائق بل أيضاً من القدرة على تقييم المخاطر وتحديد صحة التأكيدات حول ثغرات أمنية محددة وحساب CVSS. أعلى قيمة عملية في المراجعة هو AthenaBench - نسخة محدثة من معيار CTIBench الشهير لمهام استخبارات التهديدات السيبرانية.
يتحقق هذا المعيار مما إذا كان النموذج قادراً على استخراج تقنيات الهجوم ومطابقة CVE و CWE والتنبؤ بدرجة الخطورة واقتراح استراتيجيات تخفيف المخاطر. تم تسمية GPT-5 كالقائد هناك برصيد 66.1% وقد أعطاه ربط بحث الويب مكاسب إضافية في السيناريوهات المعقدة.
هذه ملاحظة مهمة: حتى النماذج القوية تحتاج إلى سياق خارجي وفي الأمان التطبيقي فإن هذا الوضع أقرب إلى عمل محلل حقيقي من اختبار غير متصل بالكامل. في فئة الإجراءات يبرز المؤلف CyBench كأحد أقوى الاختبارات المفتوحة. فهو ينشر مهام اختراق أمان كاملة في بيئة معزولة ويقيم ليس فقط الرمز النهائي بل أيضاً مدى اقتراب الوكيل من الحل الصحيح.
في جدول الترتيب المفتوح في وقت المراجعة كان Claude Opus 4.6 متصدراً برصيد 93% تبعه Claude 4.5 Sonnet و Grok 4.
النتيجة المطلقة مهمة لكن كذلك سرعة التقدم: في بضعة أجيال فقط من النماذج نمت نسبة المهام المحلولة من حوالي 20% إلى أكثر من 80%. هذا لم يعد عرضاً للقدرات العامة بل إشارة إلى أن نماذج اللغات الكبيرة الموجهة نحو الوكلاء تدخل منطقة الفائدة العملية لسيناريوهات الهجوم والبحث. لتقييم الفائدة التطبيقية في الثغرات يوصي المؤلف بشكل منفصل بـ BountyBench.
فيه تُقاس المهام من خلال القيمة المحتملة على منصات مكافآت الأخطاء: يجب على النموذج إيجاد ثغرة وبناء برنامج استغلالي أو كتابة تصحيح والباحثون في نفس الوقت يتتبعون اقتصاديات التنفيذ بالرموز. في هذه العينة من الملحوظ أن التصحيح أسهل للنماذج من كشف الأخطاء نفسه. أقرب إلى الدفاع الحقيقي في العالم هو ExCyTIn-Bench حيث يحصل الوكيل على الوصول إلى السجلات ويحقق خطوة تلو خطوة في الهجوم من خلال استعلامات SQL.
القادة هناك هم Claude Opus 4.5 و GPT-5.1 و GPT-5 لكن شيء آخر أكثر أهمية: معمارية الوكيل والأنماط مثل ReAct ترفع النتائج بشكل ملحوظ حتى للنماذج الأضعف.
بعبارة أخرى في مهام مركز العمليات الأمنية يعتمد الكثير ليس فقط على النموذج الأساسي بل أيضاً على كيفية بناء حلقة العمل حوله. في الوقت ذاته لا تحاول المراجعة تصوير السوق كنظام منظم وناضج. على العكس من ذلك أحد الانتقادات الرئيسية هو الفوضى في مشهد المعايير نفسه.
بعض مجموعات البيانات تصبح قديمة بسرعة وأخرى مرتبطة جداً بلغة أو جمهور محدد مثل SecBench الذي يميل بقوة نحو اللغة الصينية بينما تعاني أخرى من إعداد ضعيف للمواد الأصلية. مثال على هذا النهج المشكوك فيه هو CyberSOCEval: كمعيار كامل يبدو غير مقنع على الرغم من أن الجزء ذو آثار الرمل الفعلية للبرامج الضارة قد يكون مفيداً كمجموعة بيانات لفريق كشف التهديدات وحماية الشبكات والفريق التحليلي. الخلاصة العملية من المراجعة هي: إذا احتجت إلى مقارنة سريعة وواضحة لنماذج اللغات الكبيرة في مجال الأمن السيبراني فيجب تجميع الحد الأدنى من المجموعات من CyberMetric و AthenaBench للتحقق من المعرفة و CyBench و ExCyTIn-Bench لتقييم المهارات العملية و BountyBench عندما تكون التأثيرات الاقتصادية مهمة.
التحول الرئيسي في وجهة النظر حدث بالفعل: السؤال لم يعد ما إذا كان النموذج يعرف الأشياء الأساسية من الكتاب المدرسي بل كيف يمكنه أن يعمل بشكل جيد في بيئة تحتوي على سجلات ضوضائية وهجمات متعددة الخطوات وبيانات غامضة وأخطاء مكلفة. هناك حيث ستتحدد القيمة الحقيقية لنماذج اللغات الكبيرة في الأمن السيبراني.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.