عرض Machine Learning Mastery 7 دوال من itertools لهندسة الميزات في Python
نشر Machine Learning Mastery دليلًا عمليًا حول سبع دوال من itertools لهندسة الميزات في Python. ويعرض المقال كيفية استخدام المكتبة القياسية لبناء ميزات…
معالج بواسطة الذكاء الاصطناعي من Machine Learning Mastery؛ بتحرير Hamidun News
نشرت Machine Learning Mastery دليلاً عملياً حول سبع دوال Python في itertools تساعد في تبسيط feature engineering. يوضح المؤلف كيفية قيام المكتبة القياسية بحل المهام النموذجية للتحضير المسبق للمتغيرات دون تجريدات ثقيلة أو حلقات غير ضرورية أو فهرسة يدوية.
لماذا هذا مهم
الفكرة الرئيسية للمقالة بسيطة: جودة المتغيرات غالباً ما تؤثر على نتائج النموذج بشكل أقوى من تبديل الخوارزمية التالي. لهذا السبب بالذات يبقى feature engineering هو الجزء الأكثر استهلاكاً للوقت في خط الأنابيب للتعلم الآلي، وغالباً ما يستهلك وقتاً أكثر من اختيار النموذج. في هذه المرحلة، يكتب المطورون عادة حلقات متداخلة، ويكررون يدويًا عبر أزواج الأعمدة، ويجمعون النوافذ من السجل، ويحسبون التجميعات بشكل منفصل. ينمو الرمز بسرعة، وتزداد مخاطر الأخطاء مع عدد المتغيرات وشروط المعالجة.
متغير جيد غالباً ما يحسّن النموذج أكثر من تغيير الخوارزمية.
تقترح Machine Learning Mastery النظر إلى المشكلة بطريقة مختلفة وتذكّر وحدة itertools القياسية. يرتبط بشكل أكثر شيوعاً بالعمل المجرد على المكررات، لكن في هذه المقالة يتم عرضه كأداة عملية لمهندسي البيانات. يفصّل المؤلف السيناريوهات النموذجية باستخدام أمثلة من بيانات التجارة الإلكترونية: متوسط قيمة الطلب والخصومات وفئات المنتجات وقنوات البيع وتسلسل الطلبات. هذا يجعل المادة تبدو ليس كمرجع Python، بل كمجموعة من القوالب الجاهزة للمهام الحقيقية.
سبع تقنيات في الكود
في قلب المقالة توجد سبع دوال، كل منها يعالج فئة منفصلة من المتغيرات. بدلاً من النظرية من أجل النظرية، تعرض Machine Learning Mastery أمثلة قصيرة على جداول pandas والتسلسلات المعاملية والشبكات الفئوية، بحيث يمكنك أن ترى بالضبط حيث تقتصد الدالة على الرمز، تقلل من احتمالية الأخطاء المنطقية، وتسمح بتجميع سريع لقطع منطق المعالجة المسبقة القابلة لإعادة الاستخدام لتدريب النموذج والتحقق. يجعل هذا العرض التقديمي المادة مفيدة ليس فقط للتعلم، بل أيضاً كمرجع سريع لخطوط الأنابيب العاملة.
- `combinations` — للمتغيرات الثنائية بين الأعمدة الرقمية.
- `product` و `chain` — لبناء شبكات القطاعات ودمج قوائم المتغيرات من مصادر مختلفة.
- `islice` و `groupby` — للنوافذ المتأخرة والمقاييس المتحركة والتجميعات حسب الفئات.
- `combinations_with_replacement` و `accumulate` — للمتغيرات متعددة الحدود والمربعات والمقاييس السلوكية التراكمية.
من المفيد بشكل خاص أن المؤلف لا يقتصر على تعداد جاف. بالنسبة إلى `combinations`، يوضح كيفية الحصول بسرعة على جميع أزواج المتغيرات الفريدة بدون تكرار. بالنسبة إلى `islice` — كيفية تجميع نافذة lag-3 من المعاملات السابقة. بالنسبة إلى `groupby`، يركز بشكل منفصل على نقطة دقيقة مهمة: قبل التجميع، يجب ترتيب التسلسل حسب المفتاح، لأن هذه الأداة تعمل فقط مع العناصر المجاورة وليس مع الجدول بأكمله دفعة واحدة مثل pandas.groupby.
حيث يكون هذا مفيداً
تناسب المادة بشكل جيد مهام التعلم الآلي التطبيقي حيث لا تحتاج إلى إطار عمل ثقيل لعملية واحدة. إذا كان الفريق يستخدم بالفعل pandas و Python العادي، فيمكن تجميع الكثير من الأشياء بشكل أسرع وأكثر شفافية مباشرة في مرحلة المعالجة المسبقة وتحضير عينة التدريب. هذا واضح بشكل خاص في السيناريوهات التي تتضمن السجل المعاملي والقطاعات العميل والتركيبات الفئوية والمتغيرات التي يجب حسابها بدقة من البيانات السابقة دون تسرب ومعالجة يدوية للفهارس.
ميزة منفصلة للمقالة هي التوازن بين البساطة والتحكم. على سبيل المثال، يمكن الحصول على المتغيرات متعددة الحدود من خلال scikit-learn، لكن `combinations_with_replacement` يمنحك القدرة على اختيار الأعمدة التي تريد توسيعها وكيفية تسمية الحقول الجديدة بنفسك. و `accumulate` يحول بشكل ملائم سلسلة من الطلبات إلى متغيرات مثل الإنفاق التراكمي والحد الأقصى التشغيلي أو متوسط قيمة الطلب في نقطة معينة من السجل. للرمز الإنتاجي، هذا مفيد حيث تكون القراءة والتنبؤ والحد الأدنى من التبعيات غير الضرورية مهمة.
ماذا يعني هذا
بالنسبة لمطوري Python ومهندسي التعلم الآلي، هذه إشارة جيدة لإعادة النظر في مجموعة الأدوات المعتادة لديك: يمكن تنفيذ جزء من feature engineering ليس فقط من خلال مكتبات المعالجة المسبقة الكبيرة، بل أيضاً من خلال المكتبة القياسية للغة. تحليل Machine Learning Mastery قيّم لأنه يترجم itertools من فئة "الوحدة التي يعرفها الجميع" إلى مجموعة من التقنيات المحددة التي توفر فعلاً الوقت عند تجميع المتغيرات.
هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟
أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).
أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع
سبع قصص مهمة فعلاً هذا الأسبوع، مختارة بعناية. بلا ضجيج ولا بيانات صحفية.
تم! تحقق من بريدك للتأكيد.