MarkTechPost→ المصدر

أظهرت OpenAI و Magika كيفية بناء خط أنابيب للتعرف على الملفات وتحليل التهديدات

يقدم Magika و OpenAI سيناريو واضح لتحليل الملفات: أولاً يحدد النموذج نوعها الفعلي من البايتات الخام، ثم يشرح LLM النتيجة ويقيم المخاطر. يفيد هذا الخط…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أظهرت OpenAI و Magika كيفية بناء خط أنابيب للتعرف على الملفات وتحليل التهديدات
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

إذا كان النظام يثق فقط بامتداد الملف، فمن السهل خداعه. توضح هذه المادة طريقة عملية لحل المشكلة: تحدد ماجيكا النوع الفعلي للملف من خلال بايتاته، وتساعد OpenAI في تفسير النتيجة وتقييم المخاطر المحتملة. الناتج ليس مجرد فحص تقني، بل خط أنابيب كامل للأمان والأتمتة وتحليل المرفقات المريبة.

الفكرة الأساسية هنا هي أن أسماء الملفات والامتدادات غالباً ما تضلل. يمكن لأي مستند أن يحمل أي اسم، ويمكن لأرشيف أن يتنكر كصورة، ويمكن لملف قابل للتنفيذ أن يختبئ خلف أيقونة غير ضارة واحتياطي مألوف. لذلك يقترح الدليل عدم الوثوق في البيانات الوصفية والمظهر، بل تحليل المحتوى مباشرة.

ماجيكا تفعل بالضبط ذلك: يصنف النموذج نوع الملف من خلال تمثيله الثنائي، مما يجعل النتيجة أكثر قوة ضد استبدال الاسم وأخطاء المستخدم والتنكر المتعمد. بعد ذلك، تُضاف OpenAI إلى سير العمل. بعد أن تحدد ماجيكا الصيغة، يتلقى نموذج اللغة سياقاً منظماً: ما نوع الملف، مدى ثقة النتيجة، ما الميزات الإضافية التي تم استخراجها، ولماذا قد يتطلب الكائن انتباهاً.

في هذه المرحلة، لا يصدر النظام ببساطة علامة جافة مثل PDF أو ZIP أو قابل للتنفيذ، بل يشكل شرحاً مفهوماً. هذا مريح لفرق SOC ومطوري المنصات الداخلية وأنظمة الاعتدال والخدمات التي تقبل عمليات الرفع من المستخدمين وتحتاج إلى فهم سريع لما تلقته. تبرز القيمة العملية لمثل هذا الخط الأنابيب بشكل خاص في السيناريوهات حيث تحتاج إلى معالجة تدفقات كبيرة من الملفات المختلفة.

على سبيل المثال، في البريد الإلكتروني للشركات، التخزين السحابي، أنظمة إدارة المستندات الإلكترونية، أو أدوات التحقق من الرفع في تطبيقات الويب. توفر طبقة واحدة نوع المحتوى الفعلي، والثانية تساعد في إصدار حكم أولي: هل من الطبيعي رؤية مثل هذا الصيغة في هذه القناة، هل هناك عدم تطابق بين الاسم والمحتوى، هل يجب إرسال الكائن لتحليل وضع حماية أعمق أم حظره عند الدخول. من الناحية التقنية، يوضح المقال سلسلة بسيطة جداً.

أولاً، يتم تكوين الاعتمادات وتأسيس اتصال آمن بـ API، ثم يتم تهيئة ماجيكا لتصنيف الملفات مباشرة من البايتات. بعد ذلك، يتم تمرير نتيجة التحليل إلى OpenAI للحصول على وصف أكثر موضوعية واستنتاجات مع السياق. هذا التصميم جيد لأنه يقسم الأدوار: نموذج متخصص مسؤول عن التعرف على الصيغة، بينما يتعامل نموذج اللغة الكبير مع الطبقة الدلالية والشروحات والتحليل الأولي.

هذا أفضل من محاولة جعل نموذج لغة واحد يخمن نوع ملف ثنائي بدون التحقق الموثوق من المستوى المنخفض. نقطة أخرى مهمة هي قابلية التوسع. يمكن إضافة القواعد وقوائم الصيغ المسموحة والإشارات السمعة ومحركات مكافحة الفيروسات أو مسح YARA أو سياسات التوجيه المخصصة بسهولة إلى هذا المخطط.

إذا كان الملف يطابق النوع المتوقع ولم يثير تساؤلات، فإنه يتقدم على طول خط الأنابيب. إذا كان هناك عدم تطابق أو علامات خطر، يمكن للنظام تلقائياً رفع أولوية الحادثة أو إضافة شرح للمحلل أو تشغيل فحص أكثر تكلفة. بسبب هذا، يبقى خط الأنابيب عملياً: فهو لا يصنف فقط، بل يساعد أيضاً في اتخاذ القرارات.

الاستنتاج الرئيسي من هذه المادة هو أن الجمع بين ماجيكا و OpenAI يغطي مستويين من المهمة في وقت واحد: التحديد التقني لما بداخل الملف والتفسير لما يعنيه ذلك للأعمال أو الأمان. يكون هذا النهج مفيداً بشكل خاص حيث لا يكفي ببساطة معرفة نوع MIME — تحتاج إلى فهم سريع للسياق والمخاطر والإجراء التالي. بالنسبة للفرق التي تبني معالجة محتوى مؤتمتة، هذا مثال جيد على كيفية الجمع بين نماذج متخصصة وأنموذج لغة كبير بدون تعقيد غير ضروري.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…