التدريب

التعلم المعزز بمكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR)

التعلم المعزز بمكافآت قابلة للتحقق (RLVR) هو نهج تدريب حيث تأتي إشارات مكافأة RL من معايير موضوعية قابلة للتحقق من خلال البرمجة - مثل صحة الإجابة الرياضية أو اجتياز الكود لاختبارات الوحدة - بدلاً من نموذج مكافأة عصبي مدرب.

RLVR هي منهجية تدريب لنماذج اللغة التي تأتي فيها مكافآت التعلم المعزز من معايير موضوعية قابلة للتحقق من خلال البرمجة بدلاً من شبكة عصبية مدربة على تعليقات التفضيل البشري. تم اعتماد المصطلح على نطاق واسع بعد إطلاق DeepSeek-R1 في يناير 2025، على الرغم من أن المبدأ الأساسي ظهر في عمل سابق حول توليد التعليمات البرمجية والاستدلال الرياضي.

في الممارسة، يطبق RLVR خوارزميات تدرج السياسة - الأكثر شيوعاً تحسين السياسة النسبية للمجموعة (GRPO) أو متغير من PPO - حيث دالة المكافأة هي فاحص حتمي: بالنسبة لمشكلة رياضية، تُقارن الإجابة الرقمية النهائية للنموذج مع قيمة الحقيقة الأساسية (صحيح = +1، خاطئ = 0)؛ للكود، يتم تنفيذ البرنامج المُنشأ مقابل اختبارات وحدات مخفية ويتم تصنيفه على معدل النجاح. يتجنب هذا الهيكل مباشرة القرصنة من المكافآت - الاتجاه لنماذج المكافأة المدربة أن تُستغل من خلال الأنماط اللغوية السطحية التي تسجل بشكل جيد دون أن تكون صحيحة بحقيقة الحال.

أصبح RLVR هو النهج السائد لتدريب النماذج المتخصصة في الاستدلال لأن المجالات القابلة للتحقق توفر إشارة تدريب وفيرة وموثوقة دون تكلفة التعليقات لكل حالة. أظهرت التقرير الفني DeepSeek-R1 أن نموذج أساسي مدرب بـ RLVR على مشاكل رياضية وترميز طوّر استدلالاً سلسلة فكرية طويلة بشكل عفوي - بما في ذلك التصحيح الذاتي والاستكشاف متعدد الخطوات - دون أي آثار استدلال خاضع للإشراف. تم تكرار نتائج مماثلة بواسطة Qwen و Kimi وعدة مجموعات أكاديمية في غضون أشهر من إطلاق هذا التقرير.

اعتباراً من منتصف 2026، RLVR هي مرحلة تدريب أساسية لنماذج الاستدلال الحدودية من معظم المختبرات الكبرى. يتسع البحث عن توسيع نموذج المكافأة القابلة للتحقق إلى ما وراء الرياضيات والتعليمات البرمجية إلى إثبات نظرية رسمية مع مدققي Lean 4 وتوليد البيانات العلمية المنظمة وتوليف استعلامات قاعدة البيانات. أطر عمل RLVR مفتوحة المصدر مثل OpenRLHF و verl خفضت حاجز النسخ المتماثل لفرق البحث الأصغر.

مثال

نموذج استدلال مدرب بـ RLVR على مجموعات بيانات رياضيات التنافس يُكافأ فقط عندما ينتج الإجابة الرقمية الصحيحة بالضبط، مما يتسبب في تعلمه سلاسل استدلال أطول ومُصححة ذاتياً بدلاً من اختصارات الانطباع السطحي.

مصطلحات مرتبطة

← المسرد