التدريب

التعلم المعزز من آراء الذكاء الاصطناعي (Reinforcement Learning from AI Feedback - RLAIF)

التعلم المعزز من آراء الذكاء الاصطناعي (RLAIF) هو متغير من RLHF يقوم فيه نموذج الذكاء الاصطناعي بتوليد تسميات التفضيل المستخدمة لتدريب نموذج المكافأة، مما يقلل الاعتماد على التعليقات البشرية المكلفة والصعبة القياس.

التعلم المعزز من آراء الذكاء الاصطناعي (RLAIF) هو تقنية تدريب لمحاذاة حيث يقوم نظام الذكاء الاصطناعي القادر - بدلاً من المعلقين البشريين - بتوليد تسميات التفضيل أو الانتقادات المستخدمة لتدريب نموذج المكافأة أو تحسين سياسة نموذج لغة مباشرة، مما يمكّن من إنتاج ملاحظات المحاذاة بمقاييس غير عملية للتعليق البشري.

في التنفيذ الأكثر مباشرة، يقيّم نموذج لغة "حكم" كبير أزواج من المخرجات المرشحة ويعين درجات التفضيل، التي تُستخدم بالضبط كما تُستخدم تسميات التفضيل البشرية في RLHF القياسي. ويمتد نهج Anthropic في الذكاء الاصطناعي الدستوري (CAI)، المُدخل في ورقة بحثية من ديسمبر 2022، هذا الإطار: يُعطى النموذج مجموعة مكتوبة من المبادئ ("دستور") ويُطلب منه انتقاد وتعديل مخرجاته الخاصة وفقاً لتلك المبادئ، وتُستخدم بيانات التفضيل الناتجة لتدريب بأسلوب RLHF. أظهرت دراسة عام 2023 من Google Research أن تسميات التفضيل المُنتجة بواسطة نموذج لغة كبير ارتبطت ارتباطاً وثيقاً بأحكام المعلقين البشريين، وأن النماذج المدربة على ملاحظات يُنتجها الذكاء الاصطناعي حققت جودة مماثلة لتلك المدربة على ملاحظات بشرية في عدة معايير.

الدافع الأساسي لـ RLAIF هو قابلية التوسع. التعليق البشري لـ RLHF مكلف وبطيء ويصعب الحفاظ عليه بالحجم المطلوب لتدريب نماذج كبيرة جداً عبر عديد من المهام والعديد من اللغات والمجالات. يمكن لقاضٍ ذكاء اصطناعي توليد ملايين المقارنات في الساعات بكسر من التكلفة وبدون آثار الإرهاق. يُمكّن RLAIF أيضاً من جمع الملاحظات في المجالات المتخصصة - الرياضيات المتقدمة واللغات النادرة والحقول عالية التخصص - حيث المعلقون البشريون المؤهلون نادرون. القيد الرئيسي هو أن جودة الملاحظات مقيدة بقدرات وتحيزات نموذج القاضي الخاص به؛ الأخطاء أو العمى في القاضي يمكن أن تُضخّم بشكل منهجي في السياسة المدربة.

اعتباراً من 2026، يُعتبر RLAIF والذكاء الاصطناعي الدستوري مكونات قياسية من خط أنابيب تدريب Claude في Anthropic. تمّ تبني التقنية على نطاق واسع في تطوير النماذج مفتوحة المصدر، حيث تُحاذى النماذج الأصغر روتينياً باستخدام بيانات التفضيل المُنتجة بواسطة نماذج أكبر مثل GPT-4 أو LLaMA 3. أصبحت أساليب التحسين الذاتي التكراري - التي تُستخدم فيها مخرجات النموذج لضبط ذاته من خلال الاختيار المُحكّم بالذكاء الاصطناعي - منطقة بحثية نشطة، مع أساليب مثل اللعب الذاتي والإشراف القابل للتوسع التي تستكشف كيف يمكن للنماذج تقييم وتحسين بعضها البعض مع انخفاض الانخراط البشري بشكل متدرج.

مثال

تدرب Anthropic على Claude باستخدام الذكاء الاصطناعي الدستوري: يقرأ النموذج قائمة بالمبادئ المكتوبة، وينتقد مسودات ردوده الخاصة للانتهاكات، وينتج تعديلات، مما ينتج ملايين أزواج التفضيل المُسمّاة المستخدمة لـ RLHF دون الحاجة إلى معلقين بشريين لتقييم كل مقارنة.

مصطلحات مرتبطة

← المسرد