KDnuggets: خمس طرق لاكتشاف القيم الشاذة اتفقت على 32 فقط من أصل 816 عينة نبيذ
قارن KDnuggets خمس طرق شائعة لاكتشاف القيم الشاذة على مجموعة بيانات واقعية تضم 6497 عينة من النبيذ البرتغالي. ومن بين 816 عينة اعتبرتها خوارزمية واحدة على…
معالج بواسطة الذكاء الاصطناعي من KDnuggets؛ بتحرير Hamidun News
اختبرت KDnuggets خمس طرق شهيرة للكشف عن القيم الشاذة على مجموعة بيانات حقيقية للنبيذ وحصلت على نتيجة تنقض الحدس من الكتب المدرسية. من بين 816 عينة تم تحديدها بواسطة خوارزمية واحدة على الأقل، تطابقت فقط 32 عينة عبر جميع الطرق الرئيسية.
لماذا تختلف الطرق
للتجربة، استخدموا مجموعة بيانات Wine Quality المفتوحة من UCI: 6497 نبيذ برتغالي من Vinho Verde، بما فيها 1599 أحمر و4898 أبيض، مع 11 خاصية فيزيائية كيميائية وتقييمات المذوقين. هذا تفصيل مهم لأن البيانات تبين أنها ليست "كما في الكتب المدرسية": ست من أحد عشرة خاصية أظهرت عدم تناسق كبير في التوزيع، مما يعني أن الافتراضات الكلاسيكية للتوزيع الطبيعي تعمل بشكل سيء هنا.
ظهرت المشكلة الأولى قبل مقارنة الخوارزميات حتى. إذا اعتبرت أي عينة تحتوي على واحدة على الأقل من الخصائص الـ 11 الحدية قيمة شاذة، فسيكون هناك عدد كبير جداً من الكشف. في هذا الوضع، IQR حدد ما يقرب من 23% من النبيذ، و Z-Score — حوالي 26%. يشرح المؤلفون هذا بتأثير الاختبارات المتعددة: حتى إذا كانت كل خاصية فردية نادراً ما تنتج قيمة حدية عشوائية، عند التحقق من 11 عمود فإن احتمالية الوصول إلى "شذوذ" في مكان ما تزداد بشكل حاد. لذلك، استخدم التحليل قاعدة أكثر صرامة: تعتبر العينة مريبة فقط إذا كانت خاصيتان على الأقل حدية في نفس الوقت.
ما أظهرته الاختبار
بعد هذا التعديل، قارن الباحثون خمس طرق: Robust Z-Score و IQR و Isolation Forest و Local Outlier Factor و Elliptic Envelope. كان التشابه بين النتائج ضعيفاً: تراوح معامل جاكارد لأزواج الطرق من 0.10 إلى 0.30. بعبارة أخرى، نظرت أدوات مختلفة إلى نفس مجموعة البيانات ورأت "شذوذات" مختلفة. من بين 816 نبيذ اعتبرت خوارزمية واحدة على الأقل أنها قيم شاذة، ظهرت فقط 32 عينة في قائمة الإجماع لجميع الطرق الأربع الرئيسية. تم تحديد 143 نبيذاً آخر بواسطة ثلاث طرق على الأقل. كل شيء آخر اتضح أنه منطقة متنازع عليها: كانت العينات غير عادية فقط من وجهة نظر خوارزمية واحدة أو اثنتين.
"السؤال ليس أي طريقة أفضل، بل أي نوع من الشذوذ تبحث عنه."
- Robust Z-Score يبحث عن انحرافات قوية في الخصائص الفردية.
- IQR يكتشف القيم الحدية جيداً دون افتراض التوزيع الطبيعي.
- Isolation Forest يقيم كائن عبر مجموعة الخصائص بأكملها.
- LOF ينظر إلى مدى بروز نقطة من محيطها المحلي.
- Elliptic Envelope يعتمد على الحالة الطبيعية متعددة المتغيرات وكان أضعف هنا.
يشير المؤلفون أيضاً إلى فخ في طرق التعلم الآلي. استخدم كل من Isolation Forest و LOF في الاختبار contamination=0.05، مما يعني أن النموذج أجبر على تحديد 5% من الكائنات كقيم شاذة. هذه ليست "حقيقة مكتشفة"، بل حصة مشفرة بصرامة. لذلك، معدلات الكشف المتطابقة بين الخوارزميات من هذا الصنف لا تعني جودة متطابقة.
أي الحلول ساعدت
أثرت ثلاثة قرارات هندسية بقوة على النتيجة. أولاً، بدلاً من Z-Score القياسي، استخدموا نسخة قوية قائمة على الوسيط والانحراف المطلق للوسيط: النسخة القياسية حساسة جداً للقيم الشاذة نفسها وفي هذه مجموعة البيانات حددت 0.8% فقط من الصفوف مقابل 3.
5% للمتغير الأكثر قوة. ثانياً، تم قياس النبيذ الأحمر والأبيض بشكل منفصل لأن لديهما مستويات كيميائية مرجعية مختلفة، ودمجها دون تعديل ينشئ شذوذات كاذبة. ثالثاً، تم استبعاد Elliptic Envelope من "تصويت الإجماع" النهائي.
تفترض الطريقة التوزيع الطبيعي متعدد المتغيرات، لكن في Wine Quality Dataset لم يتم استيفاء هذا الشرط: كانت إحدى الخصائص تتمتع بعدم تناسق يبلغ 5.4، وعدد من الخصائص الأخرى — أعلى من 1. استبعاد الطريقة من الإجماع هنا ليس مجرد مستحضرات تجميل بل مثال على الانضباط التحليلي الطبيعي: إذا تم انتهاك الافتراضات، فلا يجب أن تحدد الأداة الاستنتاجات النهائية.
التحقق المؤلفون أيضاً من القيم الشاذة مقابل تقييمات التذوق من 3 إلى 9 نقاط. كانت العينات ذات الجودة القصوى — جيدة جداً أو سيئة جداً — حوالي مرتين أكثر عرضة للظهور في قائمة الشذوذ الإجماع. هذا لا يثبت أن الخوارزميات "فهمت الذوق", لكنه يوفر فحص معقولية مفيداً: الانحرافات الكيميائية تحدث بالفعل بشكل أكثر تكراراً حيث يبرز النبيذ أيضاً من خلال تقييم الخبراء.
ما معنى هذا
الاستنتاج الرئيسي لعلوم البيانات وممارسة التعلم الآلي بسيط: القيمة الشاذة ليست كياناً موضوعياً، بل نتيجة تعريف تم اختياره. إذا كنت بحاجة إلى سير عمل بدون حقيقة معروفة مصنفة، فمن الأعقل عدم الثقة بخوارزمية واحدة، بل تجميع إجماع من عدة طرق ثم الاتفاق معاً من خلال خبرة المجال حول ما يجب إزالته وما يجب الاحتفاظ به كإشارة نادرة لكن قيمة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.