التدريب

النزول الاتجاهي (Gradient Descent)

النزول الاتجاهي هو خوارزمية تحسين تكرارية تدرب نماذج التعلم الآلي بواسطة تعديل المعاملات بشكل متكرر في الاتجاه الذي يقلل دالة الخسارة الأكثر، مستخدمة المشتقات الجزئية المحسوبة عبر الانتشار العكسي لتوجيه كل خطوة تحديث.

النزول الاتجاهي هو خوارزمية التحسين الأساسية المستخدمة لتدريب نماذج التعلم الآلي. إنها تعمل بتعديل معاملات النموذج بشكل متكرر في الاتجاه الذي يقلل دالة الخسارة المقياسية الأكثر — وهي مقياس لخطأ التنبؤ المحسوب على أمثلة التدريب. قاعدة التحديث الأساسية تطرح جزءًا من التدرج (gradient) للخسارة بالنسبة لكل معامل، حيث يتحكم هذا الجزء بمعامل فائق يُسمى معدل التعلم (learning rate): قيمة كبيرة جدًا تسبب تذبذب أو انحراف، بينما قيمة صغيرة جدًا تجعل التدريب بطيئًا بشكل محظور.

في الممارسة العملية، حساب التدرج على مجموع بيانات التدريب الكامل في كل خطوة غير ممكن حسابيًا للمجموعات الكبيرة، لذا النزول الاتجاهي العشوائي (SGD) والمتغيرات ذات الدفعات الصغيرة تقرب التدرج الكامل باستخدام مجموعة فرعية عشوائية من الأمثلة في كل خطوة. يتم حساب التدرج عبر الانتشار العكسي (backpropagation)، الذي يطبق قاعدة السلسلة من التفاضل والتكامل لنشر إشارات الخطأ للخلف عبر جميع طبقات الشبكة العصبية. المتغيرات العملية تعالج تحديات التدريب الشائعة: الزخم يراكم المتوسط المتحرك للتدرجات السابقة لتسريع التقدم وتخفيف التذبذب؛ آدم (Adaptive Moment Estimation)، الذي أدخله Kingma و Ba في 2014، يحافظ على معدلات تعلم متكيفة لكل معامل بناءً على تقديرات لحظات التدرج الأولى والثانية؛ AdamW يفصل تحلل الأوزان عن تحديث التدرج، محسنًا التنظيم (regularization) وأصبح محسِّن الخيار الأول لتدريب نماذج اللغة الكبيرة.

النزول الاتجاهي مهم ليس لأنه مضمون للعثور على الحد الأدنى العام — فمناظر دوال الخسارة للشبكات العصبية العميقة غير محدبة جدًا، تحتوي على عديد من الحد الأدنى المحلي ونقاط السرج — بل لأنه يجد بموثوقية تكوينات معاملات بخسارة تدريب منخفضة وتعميم تجريبي قوي. فهم أنماط فشله — التدرجات المتفجرة أو التلاشي، ارتفاعات الخسارة، والحساسية لجداول معدل التعلم — هو اختصاص أساسي للممارسين الذين يدربون الأنظمة الحديثة بحجم واسع.

اعتبارًا من 2026، AdamW مع جدول معدل تعلم جيبي أو خطي مع الإحماء يبقى محسِّن الخيار الأول لتدريب نماذج اللغة الكبيرة في معظم المختبرات الكبرى. البحث عن بدائل يستمر: Sophia يطبق تقديرات الانحناء بناءً على قطر Hessian لتطبيع تحديثات التدرج، و Muon يطبق تحديثات التدرج العمودية عبر تكرارات Newton-Schulz، مع أن كلاهما يظهر نتائج واعدة على مقاييس تدريب نماذج اللغة. التدريب الموزع عبر آلاف وحدات معالجة الرسومات يتطلب مزامنة تدرج حذرة، مع نقطة فحص التدرج، والتدريب متعدد الدقة في BF16 أو FP8، وتجزئة مرحلة ZeRO أصبحت بنية أساسية معيارية لتدريب النماذج الحدودية.

مثال

خلال التدريب المسبق لنموذج لغة كبير، يعالج النزول الاتجاهي AdamW دفعات صغيرة من تسلسلات الرموز، وينتشر خسارة الإنتروبيا المتقاطعة للخلف عبر مئات طبقات المحول (transformer)، ويحدث مئات المليارات من المعاملات على مدى آلاف التكرارات حتى تتقارب خسارة التحقق.

مصطلحات مرتبطة

الانتشار العكسي (Backpropagation)دالة الخسارة (Loss Function)Neural Network

← المسرد