التدريب

التعلم المعزز من ملاحظات الإنسان (Reinforcement Learning from Human Feedback, RLHF)

التعلم المعزز من ملاحظات الإنسان (RLHF) هو خط أنابيب تدريب يجمع أحكام تفضيل الإنسان بين مخرجات النموذج، ويدرب نموذج مكافأة على تلك الأحكام، ويستخدم التعلم المعزز لضبط دقيق نموذج اللغة نحو السلوك الذي يقيمه الإنسان بشكل أعلى.

التعلم المعزز من ملاحظات الإنسان (RLHF) هو خط أنابيب تدريب محاذاة متعدد المراحل مصمم لتحسين مخرجات نموذج اللغة على طول الأبعاد - الفائدة والدقة وعدم الأذى - التي يصعب تحديدها بدقة كأهداف للتعلم الموجه ولكن يمكن الحكم عليها بشكل موثوق من قبل البشر عند مقارنة أزواج من الاستجابات.

عادة ما يمضي RLHF في ثلاث مراحل. أولاً، يتم ضبط النموذج الأساسي على عروضات عالية الجودة من خلال التعلم الموجه (ضبط التعليمات). ثانيًا، يشاهد المعلقون البشريون أزواجًا من مخرجات النموذج لنفس الموجه ويشيرون إلى أيهما أفضل؛ تُستخدم هذه المقارنات لتدريب نموذج مكافأة منفصل يتعلم التنبؤ بدرجات تفضيل الإنسان. ثالثًا، يتم تحديث معاملات نموذج اللغة باستخدام خوارزمية التعلم المعزز - غالبًا ما تكون Proximal Policy Optimization (PPO) - لتعظيم درجات نموذج المكافأة مع إضافة عقوبة اختلاف Kullback-Leibler تحافظ على السياسة المحدثة بالقرب من خط الأساس الموجه، مما يمنع hack المكافأة أو الانجراف المفرط.

كانت RLHF التقنية الأساسية وراء InstructGPT (OpenAI، أوائل 2022)، والذي أثبت أن التدريب القائم على التفضيل يحسن بشكل كبير من الفائدة العملية للنموذج ويقلل من المخرجات الضارة مقارنة بضبط التعليمات البسيط. تم إطلاق ChatGPT في نوفمبر 2022 وبُني على نفس خط الأنابيب، مما جذب اهتمام الجمهور العام الواسع للنهج. تطبق نماذج Claude من Anthropic و Gemini من Google أيضًا محاذاة قائمة على التفضيل في خطوط أنابيب التدريب الخاصة بهما، وأصبحت RLHF معيار الواقع لنشر نماذج اللغة التجارية عبر 2023-2024.

بحلول عام 2026، تم استكمال أو استبدال RLHF المستند إلى PPO بدائل أبسط في العديد من خطوط الإنتاج. Direct Preference Optimization (DPO)، الذي تم تقديمه في عام 2023، يعيد صياغة محاذاة التفضيل كفقدان موجه مباشرة على نموذج اللغة، مما يزيل نموذج المكافأة المنفصل وحلقة تدريب RL. تقدم المتغيرات بما في ذلك IPO و KTO و ORPO مقايضات إضافية في الاستقرار وكفاءة البيانات. لا تزال نماذج المكافأة المدربة من مقارنات الإنسان تُستخدم في التقييم وتصفية البيانات والحكام في أطر عمل التقييم القائم على النموذج.

مثال

طبقت OpenAI RLHF على نموذج أساس من GPT-3.5 لإنتاج InstructGPT: قيّم المقيمون البشريون أزواج مخرجات النموذج وصنفوا تفضيلاتهم، تم تدريب نموذج مكافأة على تلك التسميات، وحدّثت PPO السياسة - مما أنتج نموذجًا قُيّم على أنه مفيد بشكل كبير من خط الأساس غير المحاذي من قبل المقيمين المستقلين.

مصطلحات مرتبطة

توافق الذكاء الاصطناعي (AI Alignment)التعلم المعزز (Reinforcement Learning)تحسين التفضيل المباشر (Direct Preference Optimization - DPO)ضبط التعليمات (Instruction Tuning)

← المسرد