التدريب

التعلم المعزز (Reinforcement Learning)

التعلم المعزز هو نموذج تعليم آلي حيث يتعلم وكيل سياسة صنع القرار من خلال التفاعل مع بيئة وتلقي إشارات مكافأة عددية، محسّناً للحصول على أقصى مكافأة تراكمية دون الحاجة إلى مجموعة بيانات معللة مسبقاً من الإجراءات الصحيحة.

التعلم المعزز (RL) هو نموذج تعليم آلي حيث يتعلم وكيل مستقل صنع قرارات متسلسلة من خلال التفاعل مع بيئة. في كل خطوة يلاحظ الوكيل الحالة الحالية، ويتخذ إجراء، ويتلقى إشارة مكافأة عددية، وينتقل إلى حالة جديدة. الهدف هو تعلم سياسة - رسم الخرائط من الحالات إلى الإجراءات - التي تزيد المكافأة التراكمية المخفوضة المتوقعة بمرور الوقت.

الأساس النظري للتعلم المعزز الحديث هو شكلية عملية اتخاذ القرار ماركوفي (MDP)، المطورة بشكل منهجي بواسطة Sutton و Barto في "التعلم المعزز: مقدمة" (1998، الطبعة الثانية 2018). تشمل عائلات الخوارزميات الرئيسية طرق قائمة على القيمة (Q-learning، DQN)، التي تتعلم دالة القيمة الإجراء؛ طرق التدرج السياسي (REINFORCE، PPO، TRPO)، التي تحسّن السياسة مباشرة باستخدام تقديرات التدرج؛ وطرق الممثل-الناقد التي تجمع بين الاثنين. التعلم العميق RL، الذي يجمع الشبكات العصبية مع هذه الخوارزميات، مكّن النتائج البارزة: تفوق DQN من DeepMind على الأداء البشري على 49 لعبة Atari (2015)، وهزم AlphaGo بطل العالم Go Lee Sedol (2016) باستخدام مزيج من التعلم الخاضع للإشراف وRL وبحث Monte Carlo في الشجرة.

يختلف RL عن التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف في أنه لا يتطلب مجموعة بيانات معللة مسبقاً من الإجابات الصحيحة. ينشأ التعلم من التفاعل وإشارات المكافأة المؤجلة، مما يجعل RL الإطار الطبيعي لصنع القرارات المتسلسل حيث لا يمكن تحديد تسلسل الإجراءات الأمثل مسبقاً - بما في ذلك التحكم الروبوتي ولعب الألعاب والقيادة المستقلة ومحاذاة نماذج اللغة الكبيرة مع نية الإنسان من خلال RLHF و RLVR.

اعتباراً من 2026، يلعب RL دوراً مركزياً عبر حقول الذكاء الاصطناعي. أشارت OpenAI o3 و Google DeepMind Gemini 2.5 و Anthropic Claude 3.7 Sonnet جميعها إلى تدريب ما بعد التدريب القائم على RL كمكون رئيسي من قدرات الاستدلال الخاصة بهم. في الروبوتات، يدفع RL المدمج مع نقل محاكاة إلى الواقع المعالجة والحركة في الأنظمة من شركات بما في ذلك Figure AI و Boston Dynamics. تشمل التحديات البحثية المفتوحة الرئيسية كفاءة الأخذ بالعينات ومواصفات المكافأة والتعميم القوي على البيئات غير المرئية أثناء التدريب.

مثال

تستخدم OpenAI Proximal Policy Optimization (PPO) أثناء مرحلة RLHF بعد التدريب من InstructGPT و GPT-4 لضبط النموذج مقابل نموذج مكافأة مدرب يسجل عينات من الإكمالات، مما يحول توزيع الإخراج نحو ردود يفضلها المقيمون البشريون.

مصطلحات مرتبطة

التعلم المعزز من ملاحظات الإنسان (Reinforcement Learning from Human Feedback, RLHF)التعلم المعزز بمكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR)Reward Hacking الوكيل الذكي (AI Agent)

← المسرد