كيف تدرّب AI على التفضيلات البشرية: دليل إلى DPO وQLoRA
نُشر دليل مفصل لتطبيق Direct Preference Optimization (DPO) من أجل مواءمة النماذج اللغوية الكبيرة مع التفضيلات البشرية. تجمع الطريقة بين مكتبات TRL وQLoRA…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
# كيفية تدريب الذكاء الاصطناعي على تفضيلات الإنسان: دليل DPO و QLoRA
يواجه مطورو نماذج اللغة الكبيرة مفارقة: كلما زادت قوة الشبكة العصبية، زادت صعوبة جعلها تفعل بالضبط ما يريده المستخدم. يحل النهج الجديد هذه المشكلة بأناقة — بدون بنية تحتية مكلفة. نشرت Hugging Face دليلًا تفصيليًا لتطبيق Direct Preference Optimization، وهي طريقة تحاذي نماذج اللغة مع تفضيلات الإنسان باستخدام وحدة معالجة رسومات قياسية فقط في Google Colab.
يكمن جوهر المشكلة في كيفية تدريب الذكاء الاصطناعي الحديث. أولًا، يتم تدريب النموذج على حجم ضخم من النصوص، ثم يحاول المطورون تعليمه أن يكون مفيدًا وآمنًا. يتطلب النهج الكلاسيكي ثلاث مراحل: تدريب النموذج الأساسي، تدريب نموذج مكافأة منفصل يقيم جودة الإجابات، ثم استخدام هذا النموذج لضبط النظام الرئيسي من خلال Reinforcement Learning from Human Feedback. هذا كثيف الطاقة وغالي التكلفة ويتطلب ضبط معاملات عديدة. Direct Preference Optimization يدمر هذه البنية بشكل جذري.
يعمل DPO بمبدأ مختلف — فهو يدرب النموذج مباشرة على أزواج من الإجابات الجيدة والسيئة، بدون نموذج مكافأة وسيط. تخيل أنك تريي الطفل أمثلة على السلوك الصحيح والخاطئ، فيتعلم التمييز بينهما مباشرة، بدون وسيط. يوضح الدليل الجديد كيف يعمل هذا عمليًا. جمع المطورون بين ثلاث أدوات: TRL (Text Generation Library) و QLoRA (quantized Low-Rank Adaptation) و PEFT (Parameter-Efficient Fine-Tuning). معًا تنشئ نظام تدريب قوي لكن مضغوط.
من الناحية الفنية، تبدو العملية هكذا. تضغط QLoRA النموذج باستخدام تكميم الأوزان بأربعة بتات، مما يقلل متطلبات ذاكرة وحدة معالجة الرسومات عدة مرات. تضيف PEFT معاملات قابلة للتدريب فقط في الطبقات الحرجة من النموذج، بدلًا من البنية بأكملها. توفر TRL DPOTrainer جاهزًا يتعامل مع منطق التدريب. كبيانات تدريب، يتم استخدام مجموعة بيانات UltraFeedback الثنائية — مجموعة من الأمثلة حيث تتوافق كل استعلام مع زوج من الإجابات: الأفضل والأسوأ. يتعلم النموذج تفضيل الخيارات الجيدة على السيئة.
الميزة الرئيسية لهذا النهج هي الإمكانية. في السابق، كان محاذاة النماذج الجدية متاحة فقط للشركات التي تملك ملايين الدولارات لمجموعات وحدات معالجة الرسومات. الآن يمكنك تشغيل خط الأنابيب بالكامل على وحدة معالجة رسومات واحدة، حتى Tesla T4 الاقتصادية في سحابة Google. هذا يوسع نطاق التطوير — فرق صغيرة والباحثون والشركات الناشئة تحصل على أداة كانت في السابق امتيازًا حصريًا للعمالقة التكنولوجيين. يقلل الاستغناء عن نموذج المكافأة من وقت التطوير، يخفض التكاليس الحسابية، ويبسط تصحيح الأخطاء. إذا تصرف النموذج بشكل غريب، ترى على الفور السبب بدلًا من البحث عن خطأ في ثلاثة مكونات في نفس الوقت.
الأهمية العملية لهذا ضخمة. ستتمكن الشركات من تكييف نماذج اللغة بسرعة مع مهامها دون فقدان جودة الإجابات. تكسب الشركات الناشئة التي تملك وحدة معالجة رسومات واحدة القدرة على المنافسة مع اللاعبين المعروفين في مجال مساعدات الذكاء الاصطناعي المخصصة. يحصل الباحثون على طريقة مريحة وقابلة للتكرار لدراسة محاذاة النماذج.
يوضح DPO مع QLoRA و PEFT اتجاهًا في تطوير الذكاء الاصطناعي: الأدوات القوية تصبح أرخص وأبسط. هذا لا يعني أن النماذج الكبيرة لم تعد مطلوبة — تبقى القوة مهمة. لكن الآن أنت لست مجبرًا على دفع أموال لعمالقة التكنولوجيا مقابل البنية التحتية لتعليم النماذج إطاعتك. يمكن لهذا التوسيع أن يغير بشكل جذري كيفية تطوير ونشر الذكاء الاصطناعي في السنوات الثلاث أو السنتين القادمتين.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.