التدريب

الانتشار العكسي (Backpropagation)

الانتشار العكسي هو خوارزمية لحساب التدرج (gradient) لخسارة الشبكة العصبية بالنسبة لأوزانها بواسطة نشر إشارات الخطأ للخلف عبر طبقات الشبكة، مما يتيح التحسين المعتمد على التدرجات.

الانتشار العكسي (اختصار لـ "الانتشار العكسي للأخطاء") هو الخوارزمية الأساسية المستخدمة لتدريب الشبكات العصبية الاصطناعية. إنها تحسب مدى مساهمة كل وزن في خطأ الناتج بتطبيق قاعدة السلسلة من التفاضل والتكامل بشكل متكرر من طبقة الناتج للخلف إلى طبقة الإدخال، مما ينتج متجه التدرج الذي يوجه تحديثات الأوزان.

أثناء الممر الأمامي، تتدفق بيانات الإدخال عبر الشبكة، وتنتج التنبؤ. ثم تقيس دالة الخسارة الفجوة بين هذا التنبؤ والهدف. يقوم الانتشار العكسي بإجراء الممر العكسي: بدءًا من الناتج، يحسب المشتقات الجزئية للخسارة بالنسبة لكل وزن، طبقة تلو الأخرى. يتم بعد ذلك استخدام هذه التدرجات بواسطة محسِّن — مثل النزول الاتجاهي العشوائي (SGD) أو آدم — لتعديل الأوزان في الاتجاه الذي يقلل الخسارة.

تم تعميم الخوارزمية للشبكات العصبية بواسطة Rumelhart و Hinton و Williams في ورقتهم عام 1986 في مجلة Nature، رغم أن اشتقاقات مستقلة سابقة موجودة. تبقى آلية التدريب الأساسية لممارسة جميع أنظمة التعلم العميق تقريبًا، من المصنفات الصغيرة إلى نماذج اللغة الكبيرة بمئات المليارات من المعاملات.

اعتبارًا من 2026، يستمر الانتشار العكسي في دعم تدريب النماذج الحدودية مثل GPT-4 و Gemini و LLaMA 3. البحث عن بدائل — بما في ذلك التفاضل للأمام والتدرجات الاصطناعية والقواعد التعليمية المحلية المستوحاة من الأحياء — يبقى نشطًا لكنه لم يحل محل الانتشار العكسي في التدريب العملي بحجم واسع.

مثال

عند تدريب مصنف الصور، يحسب الانتشار العكسي مدى مساهمة أوزان كل مرشح حلزوني في سوء تصنيف قطة كلب، مما يسمح بتعديل هذه الأوزان لتقليل الخطأ في تكرار التدريب التالي.

مصطلحات مرتبطة

النزول الاتجاهي (Gradient Descent)Neural Network دالة الخسارة (Loss Function)

← المسرد