أظهر Habr AI أن التعلّم بالتعزيز لا يزال متأخرًا عن التحسين الكلاسيكي في اللوجستيات
حلّل Habr AI كيف يتصرف التعلّم بالتعزيز في مهمة لوجستية تطبيقية — اختيار محطات التزود بالوقود على المسار. وللتجربة، بُنيت بيئة RL خاصة، ودُرّب Dueling Double…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
نشرت Habr AI تجربة مفصلة حول ما إذا كان بإمكان التعلم المعزز أن يحل محل الطرق الكلاسيكية للتحسين الرياضي في الخدمات اللوجستية التطبيقية. تبين التحقق أنه متحفظ: RL قادر بالفعل على حل المهمة المنظمة، لكن من حيث جودة الحل فإنه لا يزال أقل من حل محسِّن.
كيف تم صياغة المشكلة
في قلب التجربة كانت هناك مشكلة تجارية واقعية تماماً: كيفية التخطيط لمحطات التزود بالوقود للمركبات الثقيلة على طول المسار بحيث تقلل تكاليف الوقود. بالنسبة للناقلين، هذا بند نفقات حساس، والتباين في الأسعار بين محطات الوقود يوفر مجالاً حقيقياً للتحسين. لا يكفي اختيار أرخص النقاط ببساطة—يجب ربط الحل بقيود المسار وسعة الخزان والمتطلبات التشغيلية. اختار المؤلف هذه الحالة بالذات لأنها أقرب للخدمات اللوجستية الفعلية من مسائل الكتب المدرسية مثل TSP، وتظهر بوضوح الحدود بين RL الأكاديمي والتحسين التطبيقي.
- لا يمكن أن ينخفض الحد الأدنى من الوقود عن عتبة معينة في أي قطاع
- لا يجب أن يتجاوز الحجم في الخزان السعة القصوى
- يجب أن تبقى احتياطات وقود محددة في نهاية المسار
- لا معنى للتوقف في محطة وقود إلا مع حد أدنى مبرر لكمية التزود
لتكييف المشكلة مع RL، كان يجب تفكيك حجم الوقود. بدلاً من الاختيار المستمر، تم إعطاء الوكيل خمس إجراءات: التزود بـ 0% أو 25% أو 50% أو 75% أو 100% من المساحة الحرة في الخزان. بالتوازي، تمت صياغة المشكلة ذاتها كمسألة برمجة غير خطية وحُلت بمحسِّن SCIP الكلاسيكي. أنشأ هذا خطاً أساسياً واضحاً: لا داعي للتكهن بما إذا كان الوكيل يتعلم—يمكنك المقارنة مع حل أمثل عملياً في نفس الصياغة.
كيف تم تدريب الوكيل
لهذه التجربة، قاموا ببناء بيئة RL خاصة بهم، لأنه لا توجد صناديق رمل جاهزة لهذه المهمة. تم وصف حالة الوكيل بمتجه يحتوي على استهلاك الوقود المستقبلي بين محطات الوقود وأسعار الوقود وقيود الخزان. نظراً لأن أطوال المسارات تختلف، تم إحضار المتجه إلى حجم ثابت: تم ملء البيانات بأصفار ثم تم تطبيعها بحيث لا يرتبك النموذج بالمقاييس. نتيجة لذلك، رأى الوكيل في كل خطوة مستوى الوقود الحالي والاحتياج المستقبلي للوقود والأسعار المتاحة والاحتياطي المطلوب في النهاية.
تم بناء المكافأة حول تكلفة الوقود، مع إضافة عقوبات لانتهاك القيود. كخوارزمية، اختاروا مزيجاً من Dueling DQN و Double DQN: المخطط الأول يفصل قيمة الحالة عن ميزة الإجراء، والثاني يقلل من الإفراط في تقدير قيم Q ويجعل التعلم أكثر استقراراً. اختبر المؤلف معماريتي شبكة—متصلة بالكامل وتلافيفية أحادية البعد—وأضاف أيضاً ذاكرة تشغيل، استكشاف متناقص، والتعلم المنهجي مع حلقات خبير حيث تم اقتراح الاستراتيجية المثلى جزئياً من قبل النموذج الكلاسيكي.
ما أظهرته الاختبارات
مع البيانات الحقيقية، ظهرت مشكلة تجارية نموذجية: اتضح أن السجل قصير، والسجلات كانت مكررة، ولم يكن جمع السجلات مُعداً للتدريب. تم نقل التدريب إلى مجموعة بيانات اصطناعية معدّلة لتختلف طبقاً للمسارات الحقيقية. على الرسوم البيانية، تقاربت معماريتا الشبكة العصبية بسرعة نحو نفس مكافأة متوسطة تقريباً حول -7. لم تسفر مرحلة استكشاف أطول، أو إضافة إجراءات خبير، أو إعادة ضبط المكافأة عن تحسن ملحوظ. أي أن الوكيل استقر لكنه لم يبدأ في اتخاذ قرارات أقوى بشكل ملحوظ.
بدأ الجزء الأكثر إثارة للاهتمام عند المقارنة مع التحسين الرياضي على 86 مسار حقيقي. أنفقت نماذج RL إجمالاً أكثر والتزود بوقود أكثر من خط أساس المحسِّن، مع فجوة تكاليف تتراوح من 8% إلى 54% حسب متغير التدريب. اقتربت تعديل Overload، الذي عاقب بشكل أشد الوقود الزائد في نهاية المسار، من الحد الأمثل. في الوقت ذاته، كان لـ RL ميزة غير متوقعة: كان متوسط سعر شراء الوقود أقل. المشكلة أن الوكيل عوّض هذا بفائض من الوقود ولم يحاول إكمال المسار مع احتياطي قريب من المطلوب. تعامل مع قيود الاحتياطي الأدنى بشكل معقول، والاستدلال من RL كان أسرع من المحسِّن، لكن بحساب حوالي ساعة من التدريب، الميزة للنهج الكلاسيكي تبقى.
ماذا يعني هذا
تجربة Habr AI لا تنهي RL في التحسين، لكنها تضعه في مكانه. بالنسبة للمسائل اللوجستية المصاغة بشكل جيد، البرمجة الرياضية الكلاسيكية لا تزال أكثر موثوقية وأرخص من حيث تكاليف العمل وأكثر دقة في النتائج. يُرى الفرصة الحقيقية لـ RL أكثر في السيناريوهات الهجينة: كمسرّع، كمولد الحلول الأولية، أو كطبقة تكيف حيث تكون البيئة ديناميكية جداً بالنسبة لنموذج ثابت.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.