التدريب

تحسين التفضيل المباشر (Direct Preference Optimization - DPO)

تحسين التفضيل المباشر (DPO) هو خوارزمية تدريب تقوم بضبط نماذج اللغة الكبيرة للمحاذاة مع تفضيلات الإنسان بإعادة صياغة هدف RLHF كخسارة تصنيف ثنائي على أزواج التفضيل، مما يلغي الحاجة إلى نموذج مكافأة منفصل تم تدريبه.

DPO هي خوارزمية ضبط دقيق لنماذج اللغة الكبيرة تحقق نفس هدف المحاذاة مثل التعلم المعزز من ملاحظات الإنسان (RLHF) دون تدريب نموذج مكافأة منفصل. وقد تم تقديمها بواسطة Rafailov و Sharma و Mitchell والزملاء من Stanford في ورقة بحثية عام 2023، وأعاد DPO التعبير عن مشكلة تحسين RLHF كمهمة تصنيف خاضعة للإشراف على أزواج من مخرجات النموذج المفضلة بشرياً والمرفوضة بشرياً.

الرؤية الأساسية هي إعادة تحديد معاملات رياضية: يمكن كتابة سياسة RLHF المثلى كدالة شكل مغلق لاحتمالات السجل في نموذج المرجعية وحافز ضمني، وبالتالي تدريب السياسة مباشرة على تفضيل الاستجابات المختارة على المرفوضة - باستخدام خسارة الإنتروبيا الثنائية - يحسّن بشكل ضمني تلك المكافأة دون جعلها صريحة أبداً. بالنظر إلى مجموعة بيانات من (prompt، chosen response، rejected response) الثلاثيات، يتم تحديث النموذج لزيادة احتمالية الإكمال المختار، مرجحاً بمدى انحراف النموذج الحالي عن سياسة المرجعية.

المزايا الرئيسية لـ DPO على RLHF القائم على PPO هي الاستقرار والبساطة. RLHF القياسي مع PPO يتطلب الحفاظ على واستعلام نموذج مكافأة حي أثناء التدريب، والموازنة الحذرة بين معدلات التعلم المتعددة، وإدارة القرصنة من المكافآت. يلغي DPO نموذج المكافأة بالكامل، مما يقلل متطلبات الحوسبة وعدد المعاملات الزائدة. في المعايير المراقبة، غالباً ما تطابق النماذج المدربة على DPO أو تتجاوز النماذج المدربة على PPO في معايير اتباع التعليمات والتفضيل.

اعتباراً من 2026، DPO ومشتقاتها - بما في ذلك تحسين التفضيل للهوية (IPO) وتحسين Kahneman-Tversky (KTO) و SimPO - هي مكونات قياسية من خطوط أنابيب المحاذاة في معظم مختبرات الذكاء الاصطناعي الكبرى. ومع ذلك، بالنسبة للمهام التي تتطلب استدلالاً معقداً متعدد الخطوات، تُفضّل الطرق التي تستخدم إشارات مكافأة قابلة للتحقق (RLVR) أو خوارزميات التدرج السياسي مثل GRPO بشكل متزايد، حيث قد يكون أداء DPO ضعيفة عندما تكون إشارة التفضيل نادرة أو مسار الاستدلال الصحيح غامضاً.

مثال

تستخدم Meta متغيرات Llama 3 المدربة على التعليمات DPO كجزء من خط أنابيب المحاذاة بعد التدريب الخاص بها لتحسين المساعدة والحد من المخرجات الضارة، مع التدريب على أزواج التفضيل الموضحة بشرياً بكسر من تكلفة الحوسبة من RLHF الكامل القائم على PPO.

مصطلحات مرتبطة

التعلم المعزز من ملاحظات الإنسان (Reinforcement Learning from Human Feedback, RLHF)الضبط الدقيق (Fine-tuning)توافق الذكاء الاصطناعي (AI Alignment)

← المسرد