MarkTechPost→ المصدر

أعلنت Nvidia عن PivotRL — إطار عمل لوكلاء الذكاء الاصطناعي بتوفير 4x في خطوات rollout

أطلقت Nvidia PivotRL — مخطط ما بعد التدريب لنماذج اللغة الكبيرة للوكلاء الذي يتفوق على SFT في الجودة دون الحاجة إلى عمليات end-to-end rollout ثقيلة في كل…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أعلنت Nvidia عن PivotRL — إطار عمل لوكلاء الذكاء الاصطناعي بتوفير 4x في خطوات rollout
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

قدمت Nvidia فريمورك PivotRL — إطار عمل ما بعد التدريب للنماذج اللغوية الوكيلة الذي يحاول حل أحد أكثر المقايضات إزعاجاً في الذكاء الاصطناعي: إما ضبط دقيق رخيص مع انخفاض الأداء خارج مجموعة البيانات، أو جودة قوية بتكلفة عمليات التمرير الاستكشافية باهظة الثمن جداً. وفقاً للشركة، تحقق الطريقة دقة مقارنة مع RL النهائي الشامل في المهام الوكيلة، لكنها تتطلب عدد خطوات استكشافية أقل بـ 4 مرات.

أين يقع الاختناق

ظل ما بعد التدريب للنماذج في السيناريوهات الوكيلة الطويلة عالقاً منذ فترة طويلة في صراع بين الكفاءة والتعميم. الضبط الدقيق الخاضع للإشراف رخيص نسبياً: يتعلم النموذج من المسارات الجاهزة دون أن يضطر إلى قطع المسار بأكمله عبر الإنترنت في كل مرة. المشكلة هي أن هذا الوضع غالباً ما يربط النموذج بتوزيع أمثلة التدريب. بمجرد انحراف المهمة قليلاً — موقع ويب مختلف، صيغة إجابة مختلفة، طريقة مختلفة لاستدعاء أداة — يمكن أن تتدهور الجودة بشكل ملحوظ.

مع التعلم المعزز النهائي الشامل، الوضع معاكس. يحافظ بشكل أفضل على القدرة على العمل خارج مجال التدريب، لأن النموذج يتعلم من إجراءاته الخاصة وفق السياسة الفعلية وعواقب تلك الإجراءات. لكن السعر مرتفع: للمهام الطويلة مثل البرمجة والتصفح أو العمل في المحطة الطرفية، يجب عليك تشغيل خطوات استكشافية متعددة عدة مرات قبل كل تحديث للمعاملات. بالنسبة لما بعد التدريب في الإنتاج للنماذج الكبيرة، يتحول هذا بسرعة إلى عملية مكلفة جداً من حيث الوقت وميزانية GPU.

كيفية عمل PivotRL

الفكرة وراء PivotRL هي عدم تدريب النموذج على المسار الكامل مرة واحدة، بل البحث عن الخطوات الوسيطة الأكثر إفادة ضمنها. يسميها الباحثون محاور. أولاً، يتم استخراج جميع حركات المساعد عند حدود استدعاءات النموذج من مجموعة بيانات SFT، ثم يتم الحصول على ملف تعريفي لها بدون الإنترنت باستخدام سياسة مرجعية مجمدة. لا تدخل أي حالات في التدريب، بل تلك الحالات حيث توليد خطوات محلية وفق السياسة الفعلية تنتج نتائج مختلطة: بعض الإجراءات تؤدي إلى النجاح، والبعض الآخر إلى الفشل. هناك يكون إشارة التعلم المعزز الأقوى، لأن النموذج لم يحل المهمة بعد والتدرج لا ينهار إلى الصفر.

العنصر الثاني الرئيسي هو المكافآت الوظيفية بدلاً من مطابقة السلاسل الصارمة من العروض التوضيحية. بالنسبة للإجراءات الوكيلة، هذا حاسم: يمكن تحقيق الهدف نفسه باستخدام أوامر shell مختلفة أو استعلامات بحث أو صيغ استدعاء أدوات. لا يفحص PivotRL التطابق الحرفي، بل النتائج الصحيحة وظيفياً من خلال محققي المجال: من تطبيع المخطط وتشابه السلسلة إلى التحقق الخفيف من LLM-as-a-judge. بهذه الطريقة، يزيح الإطار الاحتمالات لصالح الإجراءات المقبولة، لكنه يضر أقل بسلوك النموذج في المهام غير ذات الصلة.

ما أظهرته الاختبارات

كان النموذج الأساسي في التجارب Qwen3-30B-A3B-Thinking-2507. شغلت Nvidia PivotRL عبر أربع مجالات وكيلة: conversational tool use، SWE-Bench Verified، Terminal-Bench و BrowseComp. تمت المقارنة مع كل من SFT العادي على نفس البيانات وRL النهائي الشامل حيث تهم تكلفة خطوات الاستكشاف الطويلة.

تحقق الفريق ليس فقط من الدقة المطلقة، بل أيضاً من السؤال العملي: هل يمكنك الحصول على نتائج مماثلة بدون دورة التدريب المكلفة والكاملة في كل خطوة؟

  • متوسط التحسن في المجال بالنسبة للنموذج الأساسي كان 14.11 نقطة مقابل 9.94 لـ SFT على نفس البيانات.
  • مقارنة بـ SFT، أظهر PivotRL في المتوسط دقة أعلى بنسبة 4.17٪ في المهام الوكيلة.
  • على ثمانية معايير خارج المجال، خسر SFT في المتوسط 9.83 نقطة، بينما أظهر PivotRL تغييراً قريباً من الصفر: +0.21.
  • في المهام غير الوكيلة خارج المجال، حققت الطريقة دقة OOD أعلى بنسبة 10.04٪ من SFT.
  • على SWE-Bench Verified، وصل PivotRL إلى مستوى مماثل لـ E2E RL مع عدد خطوات استكشافية أقل بـ 4 مرات وأسرع تقريباً 5.5 مرات من حيث الوقت الفعلي.

كما تؤكد Nvidia أن الطريقة مستخدمة بالفعل في Nemotron-3-Super-120B-A12B كمخطط عملي لما بعد التدريب الوكيل على نطاق الإنتاج. هذه إشارة مهمة: الأمر لا يتعلق بفكرة أكاديمية على رسم بياني واحد فقط، بل بأسلوب تعتبره الشركة عملياً بما يكفي للنموذج الكبير الفعلي. إذا تم تكرار النتيجة على أكوام أخرى، يمكن أن يصبح PivotRL خياراً وسطياً للفرق التي تحتاج إلى RL وكيل دون التكلفة الكاملة للتدريب النهائي الشامل.

ما يعنيه هذا

تتحول سباق وكلاء الذكاء الاصطناعي تدريجياً من "من يشغل خطوات الاستكشاف لوقت أطول" إلى سؤال أين تنفق الحسابات بأقصى فائدة. PivotRL مهم ليس لأنه يحل محل RL أو SFT بشكل كامل، بل لأنه يقدم اقتصاديات تدريب أكثر استهدافاً: حركات فارغة أقل، تدهوراً أقل خارج المجال، وفرصاً أفضل لإحضار النماذج الوكيلة إلى الإنتاج دون انفجار الميزانية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…