AWS Machine Learning Blog→ المصدر

مكافآت قابلة للتحقق: كيف تحسن AWS تدريب الشبكات العصبية

طورت AWS طريقة RLVR، التي تستخدم مكافآت يمكن التحقق منها موضوعيًا بدلًا من التقييمات التقريبية. تعمل التقنية على مهام الاستدلال الرياضي وتوليد الكود. والنتيجة ه

مكافآت قابلة للتحقق: كيف تحسن AWS تدريب الشبكات العصبية
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدّمت AWS نهجًا جديدًا لتدريب النماذج باستخدام التعلم بالتعزيز — Reinforcement Learning with Verifiable Rewards (RLVR)، والذي يدخل التحقق والشفافية في إشارات المكافآت. بدلاً من التقييمات التقريبية لجودة الاستجابة، يتلقى النموذج مكافأة فقط إذا كانت النتيجة صحيحة تمامًا ويمكن التحقق منها بشكل موضوعي.

مشكلة التعلم بالتعزيز التقليدي

في التعلم بالتعزيز القياسي، تقوم دالة المكافآت بتقييم جودة إجراء النموذج. لكن هذه التقييمات غالبًا ما تكون غير دقيقة: من الصعب ابتكار دالة تقيّم السلوك المعقد بشكل صحيح. يمكن للنموذج أن يحسّن الشيء الخاطئ — وهو تأثير يُعرف باسم reward hacking. يحل RLVR هذه المشكلة بشكل أساسي: تُمنح مكافأة فقط لنتيجة صحيحة تمامًا. هذا ممكن في المهام حيث يمكن التحقق من الإجابة بشكل لا لبس فيه. يتعلم النموذج من الحقيقة الأساسية، وليس من التقييمات التقريبية.

حيث تعمل المكافآت القابلة للتحقق

التحقق قابل للتطبيق في أي مكان تكون فيه النتيجة لها معيار موضوعي:

  • التفكير الرياضي — إثبات النظريات وحل المعادلات. الإجابة إما صحيحة رياضيًا أو غير صحيحة
  • توليد الأكواد — يتم التحقق من بناء الجملة من خلال محلل، والوظيفة من خلال الاختبارات. لا توجد مجال للذاتية
  • المعالجة الرمزية — التحويلات المنطقية والجبر. التحقق مؤتمت بالكامل
  • استخراج البيانات المنظمة — إذا كانت المهمة لها صيغة صحيحة، فمن السهل التحقق منها

بالنسبة للمهام بدون تحقق موضوعي (على سبيل المثال، توليد النصوص والتصميم)، يعمل RLVR بشكل أسوأ.

GRPO + التعلم بقليل من الأمثلة

تضيف AWS إلى RLVR تقنية Group Relative Policy Optimization (GRPO) — تعديل على خوارزمية تحسين سياسة النموذج. بدلاً من تحسين كل خطوة بشكل مستقل، يجمع GRPO سلاسل الإجراءات ويقارنها مع بعضها البعض. يسرّع هذا التقارب ويتجنب الحد الأدنى المحلي. طبقة إضافية تتمثل في أمثلة قليلة الأمثلة. يرى النموذج أولاً عدة أمثلة محلولة (عادة 3-5)، وبعد ذلك يتدرب على مجموعة البيانات الكاملة. يساعد هذا على تأسيس نمط السلوك المطلوب قبل بدء التحسين. تعمل المجموعة بشكل متآزر: توفر المكافآت القابلة للتحقق إشارة نقية، ويسرّع GRPO البحث عن الأمثل، والتعلم بقليل من الأمثلة يؤسس الصيغة.

النتائج على GSM8K

اختبرت AWS النهج على مجموعة بيانات GSM8K — مجموعة تضم 8500 مسألة رياضية مدرسية بمستويات صعوبة مختلفة. أظهر النموذج المدرب باستخدام RLVR تحسنًا كبيرًا في دقة حل المشاكل مقارنة بطرق الأساس. النتيجة الرئيسية: يتم دمج التحقق في عملية التدريب، وليس إضافته كفحص في النهاية. يسمح هذا للنموذج بالتعلم من الأمثلة الصحيحة بدلاً من محاولة تحقيق دالة مكافآت تقريبية. تنقل المنهجية بشكل جيد إلى المجالات المجاورة: توليد الأكواد وفحص المنطق والتحقق من الصيغ.

ماذا يعني هذا

تمثل المكافآت القابلة للتحقق تحولاً من الاستدلالات إلى التحقق في قلب التعلم. للمهندسين والباحثين: إذا كانت مهمتك تقبل التحقق الموضوعي، فسيوفر RLVR دقة أعلى وعددًا أقل من الأعمال الفنية الغريبة. تعد AWS هذا النهج للتوسع من خلال SageMaker AI، مما سيسهل الاعتماد لمستخدمي السحابة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

ما رأيك؟
جارٍ تحميل التعليقات…