التدريب غير المتصل بدون تضحيات: كيف Conservative Q-Learning ينقذ الميزانيات والأرواح
تخيل أنك تعلم روبوت جراح إجراء العمليات الجراحية أو سيارة مستقلة المناورة في حركة مرور كثيفة. في التعلم المعزز الكلاسيكي (Reinforcement Learning)، يتعلم…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
تخيل أنك تعلم روبوت جراح إجراء العمليات الجراحية أو سيارة مستقلة المناورة في حركة مرور كثيفة. في التعلم المعزز الكلاسيكي (Reinforcement Learning)، يتعلم الوكيل من خلال التجربة والخطأ. يجب حرفياً أن "يصطدم بالجدار" آلاف المرات لفهم أن هذا لا ينبغي أن يتم. في المحاكاة الافتراضية، هذا مضحك، لكن في العالم الحقيقي، مثل هذه الإستراتيجية مكلفة جداً وأحياناً غير مقبولة تماماً. هذا هو السبب في أن الصناعة تتجه بشكل متزايد نحو Offline RL—طريقة حيث يتعلم الذكاء الاصطناعي من الخبرة المتراكمة بالفعل، دون تجاوز حدود مجموعة بيانات آمنة.
كانت المشكلة، لفترة طويلة، أن الخوارزميات التقليدية تتصرف بثقة زائدة عند العمل مع البيانات غير المتصلة بالإنترنت. بمجرد أن يرى النموذج موقفاً لم يكن في مجموعة التدريب، يبدأ في نسب قيمة عالية بشكل غير طبيعي للإجراءات العشوائية. تُعرّف هذه الظاهرة باسم الإفراط في تقدير الإجراءات خارج التوزيع. ونتيجة لذلك، بدلاً من سائق حذر، نحصل على كاميكازي رقمي متأكد من أن القفز من منحدر هو أقصر طريق للهدف. لكبح هذا الفوضى، اقترح الباحثون استخدام Conservative Q-Learning، أو CQL باختصار.
يكمن جوهر CQL في التشاؤم الصحي. تقلل الخوارزمية عن قصد المكافأة المتوقعة للإجراءات الغائبة عن مجموعة البيانات التاريخية. إنها تقول أساساً للنظام: "إذا لم تر هذا من قبل، لا تتوقع المعجزات". يفتح تنفيذ هذا النهج من خلال مكتبة d3rlpy الأبواب لإنشاء أنظمة موثوقة حقاً. يمكن للمطورين الآن أخذ سجلات الأجهزة القديمة أو تسجيلات قيادة الطيارين المحترفين وتحويلها إلى مقرر درسي لشبكة عصبية جديدة، دون المخاطرة بأي مكون في عملية التعلم.
أوضح تحليل تقني حديث يستند إلى d3rlpy مزايا CQL على Behavior Cloning الكلاسيكية. إذا كنت تنسخ ببساطة الإجراءات البشرية، يرث النموذج جميع أخطاؤه. يذهب CQL أبعد من ذلك: إنه يحلل عواقب هذه الإجراءات ويختار الإستراتيجية المثلى مع البقاء ضمن ممر آمن. هذا يحول تيرابايتات متراكمة من السجلات "الميتة" إلى أصل لا يقدر بثمن للتدريب.
لماذا هذا مهم الآن؟ نحن على أعتاب نشر ضخم للذكاء الاصطناعي في العالم المادي. لا تريد الشركات بعد الآن إنفاق ملايين الدولارات على إنشاء محاكاة مثالية لا تأخذ في الاعتبار جميع تفاصيل الواقع. يسمح التعلم غير المتصل بالإنترنت باستخدام الخبرة الحقيقية المتراكمة على مر السنين وتحويلها إلى ذكاء دون خطر التسبب في كارثة تكنولوجية. هذا جسر بين الذكاء الاصطناعي النظري والممارسة القاسية لأرضيات المصنع.
السؤال الرئيسي: هل سيصبح Offline RL المعيار للصناعة 4.0، أم سنتعلم أخيراً إنشاء محاكاة لا يمكن تمييزها عن الواقع؟
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.