عندما تفشل البيانات القديمة نشر أنظمة الذكاء الاصطناعي: المخاطر والحلول
تستعجل الشركات في استخدام البيانات القديمة عند نشر أنظمة الذكاء الاصطناعي — فقد بدت وكأنها غبار أرشيفي عديم الفائدة، لكنها فجأة تحولت إلى ذهب لتدريب النماذج…
معالج بواسطة الذكاء الاصطناعي من ZDNet AI؛ بتحرير Hamidun News
تستعجل الشركات في نشر أنظمة الذكاء الاصطناعي، وفي عجلتها تأخذ جميع البيانات المتاحة لتدريب النماذج — بما في ذلك الأرشيفات التي يعود تاريخها إلى عدة سنوات أو أكثر. وهناك تنتظرها مفاجآت سيئة كثيرة قد تفشل المشروع بأكمله في اللحظة الأخيرة.
لماذا تحولت البيانات القديمة فجأة إلى ذهب
حتى وقت قريب، كانت الشركات تخزن البيانات التاريخية ببساطة — بمبدأ "قد تكون مفيدة ذات يوم". لكن مع انفجار الذكاء الاصطناعي، تحولت هذه الأرشيفات فجأة إلى موارد قيمة. النماذج تحتاج بيانات بكميات ضخمة، والأرشيفات تحتوي بالفعل على ملايين السجلات. لماذا نجمع بيانات جديدة لسنوات طويلة إذا كانت قاعدة البيانات التاريخية جاهزة بالفعل؟ علاوة على ذلك، غالباً ما تمثل البيانات القديمة أنماطاً طويلة الأجل — الاتجاهات التي تتكرر عاماً بعد عام، والاستثناءات التي تعلم النموذج كيفية العمل بشكل صحيح في الحالات الحدية. هذا يقلل وقت التطوير وينخفض تكاليف جمع البيانات الجديدة. المنطق جذاب، لكن بيانات الأرشيف من قبل 5-10 سنوات لم تُفحص أبداً من حيث معايير الأمان والخصوصية المعاصرة.
المخاطر المختبئة في الأرشيفات
عندما يبدأ المراجعون في البحث الدقيق عن البيانات القديمة، يجدون:
• أسماء كاملة وأرقام الهوية وأرقام الضمان الاجتماعي بصيغة مفتوحة • سجلات الموظفين الذين تم فصلهم قبل 5 سنوات، لكن لم يتم حذفهم من قاعدة البيانات • كلمات المرور ومفاتيح API والرموز التي تم تسجيلها ذات مرة بصيغة مفتوحة • بيانات أشخاص من دول أخرى — انتهاكات اللائحة العامة لحماية البيانات (GDPR) والقوانين المحلية • بيانات مصنفة بشكل غير صحيح — معاملات مصنفة بشكل خاطئ، أخطاء في التسميات • سجلات مكررة ومتناقضة تعلم النموذج الضوضاء بدلاً من الإشارة
عندما يتم نشر مثل هذا النموذج، يجد المنظمون والمحاميون المشاكل بسرعة. يتم تجميد كل العمل. يتطلب إعادة تجهيز البيانات، وإعادة تدريب النموذج، وإجراء فحص جديد. المشروع الذي كان يجب أن يستغرق 3 أشهر يمتد إلى سنة واحدة.
كيفية إدارة المخاطر عملياً
هناك طريق بسيط: قبل استخدام البيانات القديمة، قم بإجراء ثلاث مراحل. الأولى — فحص أمان شامل للأرشيف: من الذي أنشأ البيانات، وبأي أهداف، ومتى، وهل تحتوي على معلومات سرية، وهل تتوافق مع المعايير المعاصرة؟ المرحلة الثانية — التنظيف. حذف سجلات الأشخاص الذين لم يعودوا يوافقون على إعادة الاستخدام، إزالة المعلومات الحساسة، تصحيح أخطاء التسميات. المرحلة الثالثة — التوثيق: من أين جاءت البيانات، كم استغرقت جمعها، من قام بتسميتها، ما الافتراضات المدرجة.
غالباً ما تتجاوز الشركات هذه الخطوات الثلاث في عجلتها وتدفع ثمن ذلك
على شكل تأخيرات شهرية وإعادات عمل.
ماذا يعني هذا
نشر الذكاء الاصطناعي ليس مجرد مسألة هندسية وخوارزميات. إنها إدارة البيانات كأصل. البيانات القديمة تتطلب نفس العناية (أو أكثر) بشأن الأمان والجودة مثل البيانات الجديدة. الاستعجال في النشر يكلف دائماً تقريباً أكثر من الوقت المستثمر في الإعداد والتحقق.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.