التدريب

النسيان الكارثي (Catastrophic Forgetting)

النسيان الكارثي هو ميل الشبكة العصبية لفقدان الأداء فجأة على المهام المتعلمة سابقًا عند التدريب بشكل متسلسل على بيانات جديدة، لأن تحديثات الأوزان للمهمة الجديدة تستبدل التمثيلات المكتسبة مسبقًا.

النسيان الكارثي (يُسمى أيضًا التداخل الكارثي) هو حد أساسي للشبكات العصبية المدربة بالنزول الاتجاهي: عندما يتم ضبط دقيق للنموذج على بيانات جديدة أو مهمة جديدة بدون الوصول إلى بيانات التدريب الأصلية، فإن تحديثات الأوزان التي تقلل الخسارة الجديدة تدمر بدون قصد تكوينات المعاملات التي ترمز المعرفة السابقة. النتيجة هي فقدان شبه كامل للاختصاص في المهام السابقة حتى بعد كميات متواضعة من التدريب الجديد.

الآلية مباشرة: أوزان الشبكة العصبية مشتركة عبر جميع المهام التي يقوم بها النموذج. عند حساب التدرجات لمهمة جديدة، فإنها تعدل الأوزان لتقليل الخسارة الجديدة بدون الاعتبار للقيود المفروضة من قبل المهام السابقة. لأن التدرجات للمهام القديمة غائبة عن التحديث الحالي، يستبدل المحسِّن الحلول السابقة بحرية. يعتمد الخطورة على درجة التداخل بين تمثيلات المهام القديمة والجديدة في فضاء الأوزان: قد تتعايش المهام ذات الصلة القريبة، بينما تتنافس المهام غير المتشابهة بشكل مدمر.

يشكل النسيان الكارثي تحديًا كبيرًا لنشر أنظمة الذكاء الاصطناعي في البيئات المتغيرة، حيث يجب على النماذج التكيف مع بيانات جديدة أو تفضيلات المستخدم أو توزيع المهام بمرور الوقت بدون إعادة تدريب كاملة مكلفة من الصفر. هو عقبة أساسية لتحقيق التعلم الدائم الشبيه بالإنسان في الآلات وسبب رئيسي لماذا تتطلب معظم الأنظمة في الإنتاج دورات إعادة تدريب كاملة دورية.

تم تطوير عدة استراتيجيات تخفيف. دمج الأوزان المرن (EWC)، الذي أدخله باحثو DeepMind في 2017، يضيف مصطلح تنظيم يعاقب التغييرات في الأوزان المحددة كمهمة للمهام السابقة باستخدام مصفوفة معلومات Fisher. الشبكات العصبية التقدمية تخصص سعة طازجة لكل مهمة. إعادة تشغيل التجربة تخزن مجموعات فرعية من البيانات السابقة وتتشابك معها مع دفعات التدريب الجديدة. المعماريات المعززة بالاسترجاع والمعمارية تتجنب المشكلة جزئيًا بعزل المكونات المحددة للمهمة. اعتبارًا من 2026، لا توجد طريقة واحدة تزيل النسيان الكارثي بالكامل، ويبقى محفزًا أساسيًا لبحث التعلم المستمر.

مثال

روبوت خدمة العملاء المضبوط بدقة على توثيق إصدار برنامج جديد يفقد القدرة على الإجابة بدقة على الأسئلة حول الإصدار السابق، رغم أنه كان يجيب عليها بشكل صحيح قبل أن يبدأ الضبط الدقيق.

مصطلحات مرتبطة

← المسرد