KDnuggets→ المصدر

Pingouin: كيفية بناء خط أنابيب EDA إحصائي

Pingouin هي مكتبة Python للتحليل الإحصائي. وباستخدامها يمكن بناء خط أنابيب EDA متكامل يفحص الخصائص الأساسية للبيانات: طبيعية التوزيع، والارتباطات، والقيم الشاذة

Pingouin: كيفية بناء خط أنابيب EDA إحصائي
المصدر: KDnuggets. كولاج: Hamidun News.
◐ استمع للمقال

يبدأ معظم المحللين وعلماء البيانات استكشاف البيانات بالتصور: يبنون الرسوم البيانية، ينظرون إلى التوزيعات، يحسبون الإحصائيات الأساسية. إنها بداية جيدة، لكنها غالباً غير كافية. Pingouin هي مكتبة Python تحول تحليل البيانات الاستكشافي (EDA) إلى عملية إحصائية منهجية.

لماذا تحليل البيانات الاستكشافي الإحصائي بالغ الأهمية

يجيب التصور على الأسئلة 'ماذا نرى؟' و'كيف يبدو الأمر؟'. لكن بالنسبة لنموذج موثوق، تحتاج إلى إجابات أكثر جدية:

  • هل يتم توزيع المتغيرات بشكل طبيعي؟
  • هل هناك ارتباطات معنوية بين الميزات؟
  • ما المتغيرات التي يكون من المنطقي اختيارها للنموذج؟
  • أين تختبئ القيم الشاذة والشذوذ؟
  • ما الافتراضات الإحصائية التي تنتهكها؟

بدون هذه الإجابات، سيكون نموذجك هشاً. في مرحلة EDA، من الأسهل إعادة بناء الميزات أو تصفية البيانات بدلاً من إعادة تدريب النموذج لاحقاً.

ما الذي يمكن لـ Pingouin القيام به

تحتوي المكتبة على وظائف جاهزة للاختبارات الإحصائية الأساسية. بدلاً من حفظ الصيغ أو كتابة كتل طويلة من كود pandas و scipy، تستدعي دالة واحدة. الإمكانيات الرئيسية:

  • اختبارات الحالة الطبيعية (Shapiro-Wilk, Kolmogorov-Smirnov, Anderson-Darling) — تتحقق من توزيع البيانات بشكل طبيعي
  • تحليل الارتباط — تحسب معاملات Pearson و Spearman و Kendall مع قيمة p
  • اختبارات تجانس التباين (Levene, Bartlett) — تقارن انتشار القيم في المجموعات
  • كشف القيم الشاذة — طرق IQR و Z-score و Mahalanobis
  • ANOVA واختبارات post-hoc — تحليل الفروقات بين المجموعات
  • حجم التأثير (Cohen's d, eta-squared) — الدلالة العملية للنتائج

خط أنابيب EDA النموذجي مع Pingouin

يتكون خط الأنابيب من خطوات التحقق المتسلسلة:

التحميل والتنظيف الأساسي. اقرأ البيانات، أزل النسخ المكررة، معالجة القيم المفقودة بطريقة قياسية.

التحقق من التوزيعات. لكل متغير رقمي، استدعى `pg.normality()`. إذا كانت p-value > 0.05، فالمتغير طبيعي. وإلا — تحتاج إلى تحويل (log أو sqrt أو Box-Cox).

تحليل الارتباط. حسب مصفوفة الارتباط باستخدام `pg.corr()`، حدد العلاقات المهمة (p < 0.05). الارتباطات العالية (> 0.9) تشير إلى التعددية الخطية.

كشف القيم الشاذة. طبق عدة طرق (IQR، Z-score) وقارن النتائج. يمكن إزالة القيم الشاذة أو اختيارها بشكل منفصل أو معالجتها بتحويلات.

التحقق من افتراضات النموذج. إذا كنت تخطط للانحدار الخطي — تحقق من تجانس التباين (تباين خطأ موحد)، عدم وجود التعددية الخطية، الخطية للعلاقات.

التوثيق. سجل المتغيرات التي تنتهك الافتراضات، أيها استبعدت ولماذا. سيكون هذا مفيداً عند تفسير النتائج.

"تحليل البيانات الاستكشافي الجيد هو حوار مع البيانات، وليس مونولوج

الرسوم البيانية الجميلة."

ماذا يعني هذا

أدوات مثل Pingouin تديموقراطية الوصول إلى التحليل الإحصائي. لم تعد بحاجة إلى حفظ أسماء الاختبارات أو البحث عن الاختبار الصحيح في وثائق scipy — هناك حل جاهز في بضعة أسطر فقط. إنه مفيد بشكل خاص في المراحل الأولى من المشروع، عندما تحتاج إلى فهم سريع للبيانات التي تتعامل معها وما خطوات التحضير التي ستكون ضرورية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

ما رأيك؟
جارٍ تحميل التعليقات…