KDnuggets→ المصدر

هندسة الميزات على المنشطات: سبع مكتبات بايثون تتجاهلها عبثاً

علم البيانات هو 80% من تنظيف البيانات و 20% من الشكوى حول مقدار الوقت الذي يستغرقه تنظيف البيانات. نحن جميعاً معتادون على المكدس القياسي، حيث يبدو Pandas و…

معالج بواسطة الذكاء الاصطناعي من KDnuggets؛ بتحرير Hamidun News
هندسة الميزات على المنشطات: سبع مكتبات بايثون تتجاهلها عبثاً
المصدر: KDnuggets. كولاج: Hamidun News.
◐ استمع للمقال

علم البيانات هو 80% من تنظيف البيانات و 20% من الشكوى حول مقدار الوقت الذي يستغرقه تنظيف البيانات. نحن جميعاً معتادون على المكدس القياسي، حيث يبدو Pandas و Scikit-learn أبديين وغير قابلين للاستبدال. لكن لنكن صادقين: في اللحظة التي تتوقف فيها بياناتك عن الملاءمة في ذاكرة الوصول العشوائي لجهاز الكمبيوتر الدفتري الخاص بك، تبدأ الطرق القديمة الموثوقة في تحويل الحياة إلى كابوس. بينما يعذب زملاؤك الحلقات ويحاولون استخراج بعض الميزات يدويًا من السلاسل الزمنية، أطلقت الصناعة بصمت أدوات تقوم بهذا العمل من أجلك. وتفعله بشكل أفضل.

المشكلة في هندسة الميزات الحديثة هي أنها أصبحت اختناقًا. تعلمنا تدريب النماذج بسرعة، لكن تحضير الميزات لا يزال غالبًا يبدو وكأنه حرفة يدوية. هذا غريب، بالنظر إلى أن ما إذا كان نموذجك يتنبأ بالمستقبل أو ببساطة يخمن عشوائياً يعتمد بالكامل على جودة الميزات. "الشخصيات الرمادية" لنظام Python البيئي تدخل الساحة—مكتبات لا تتألق في كل ثاني درس تعليمي، لكنها تحل المشاكل الأساسية للقابلية للتوسع.

خذ Featuretools، على سبيل المثال. تطبق هذه المكتبة مفهوم Deep Feature Synthesis. تفهم العلاقات بين الجداول في قاعدة بيانات علائقية وتنشئ تلقائياً ميزات معقدة كان سيستغرق تطويرها أسابيع من العمل البشري. بدلاً من كتابة التجميعات يدويًا، ما عليك سوى شرح هيكل البيانات للمكتبة، وهي توفر مئات الميزات ذات الصلة. هذا انتقال من الإنتاج الحرفي إلى خط التجميع الصناعي. وهذا بالضبط ما تحتاجه عند الانتقال من نموذج أولي إلى منتج حقيقي.

بالنسبة لمن يعملون مع السلاسل الزمنية، هناك TSFRESH. إذا حاولت يومًا ما استخراج الميزات يدويًا من الإشارات أو علاقات الأسعار المالية، فأنت تعرف مدى الألم. يحسب TSFRESH تلقائياً مئات الميزات الإحصائية، من المتوسطات البسيطة إلى معاملات فورييه المعقدة. علاوة على ذلك، يمكنه تقييم أهمية كل ميزة، وتصفية القمامة في مرحلة الإدخال. هذا يوفر ليس فقط وقتك، بل أيضاً موارد حسابية تكلف ثروة اليوم.

ولا يمكننا نسيان Woodwork. إنه يحل مشكلة الطباعة الدلالية. في Python القياسي، نوع البيانات هو مجرد رقم أو سلسلة نصية. لكن بالنسبة للنموذج، يهم ما إذا كان هذا الرقم رمز بريدي أو عمر أو معرف فئة. يسمح لك Woodwork بإرفاق تسميات "ذكية" بالبيانات التي يمكن لمكتبات أخرى قراءتها تلقائياً. هذا يلغي طبقة كاملة من الأخطاء الحمقاء، مثل عندما يحاول النموذج حساب المتوسط الحسابي لرقم هاتف.

لماذا يهم هذا الآن؟ لأن عصر "ببساطة ألق البيانات على XGBoost" قد انتهى. اليوم، الفائزون هم من يمكنهم توسيع خطوطهم الأنابيب بسرعة وبرخص. يتيح لك استخدام مكتبات مثل Feature-engine أو BorutaPy توحيد عملية اختيار الميزات، مما يجعلها قابلة للتكرار. هذا حرج لتطوير الفريق، حيث لا ينبغي على أحد المهندسين أن يخمن ما قام به سلفه في ثلاثة آلاف سطر من دفتر Jupyter.

في نهاية المطاف، الانتقال إلى أدوات هندسة الميزات المؤتمتة هو مسألة بقاء في مواجهة نمو أحجام البيانات. إذا استمررت في كتابة وظائف مخصصة لكل عمود جديد، فأنت تخسر أمام أولئك الذين يستخدمون الأطر الجاهزة. لا تبدأ القابلية للتوسع بشراء وحدات معالجة رسومات جديدة—بل تبدأ بكيفية تنظيمك للمعلومات على المستوى الأساسي.

باختصار: الهندسة اليدوية للميزات تموت، وهذه أخبار جيدة. هل ستتمكن من إعادة بناء سير العمل الخاص بك قبل أن تصبح بياناتك غير قابلة للإدارة?

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…