AWS Machine Learning Blog→ المصدر

تشرح AWS إطلاق reinforcement fine-tuning في Amazon Bedrock عبر واجهات برمجية متوافقة مع OpenAI

أطلقت AWS شرحًا تقنيًا لـ reinforcement fine-tuning في Amazon Bedrock عبر واجهات برمجية متوافقة مع OpenAI. السيناريو كالتالي: قم بتكوين مفتاح Bedrock…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
تشرح AWS إطلاق reinforcement fine-tuning في Amazon Bedrock عبر واجهات برمجية متوافقة مع OpenAI
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

نشرت AWS تحليلاً مفصلاً حول كيفية تشغيل reinforcement fine-tuning في Amazon Bedrock من خلال APIs متوافقة مع OpenAI. بشكل أساسي، تقدم الشركة مسار معروف للمطورين: نفس SDK OpenAI، لكن مع Bedrock كمنصة للتدريب والتقييم والاستنتاج.

كيف يعمل العملية

يُعتبر Reinforcement fine-tuning، أو RFT، ضروري في الحالات التي لا يكون فيها من الكافي ببساطة عرض النماذج على الإجابات الصحيحة، كما هو الحال في fine-tuning المراقب الكلاسيكي. هنا، يُولّد النموذج عدة متغيرات إجابة لنفس الـ prompt، ثم تقوم دالة reward منفصلة بتعيين درجة رقمية لها. يأخذ Amazon Bedrock هذه الإشارة وينفذ دورة التحسين بنفسه من خلال خوارزمية GRPO. بالنسبة للفريق، هذا يعني عدم الحاجة لبناء بنية تحتية ثقيلة لـ reinforcement learning: التنسيق والمعالجة المتوازية والنقاط التفتيشية والمقاييس يتولاها الخدمة.

في شرح عملي، تُظهر AWS أن نقطة الدخول إلى هذا السيناريو تم جعلها متطابقة قدر الإمكان مع مكدس OpenAI المألوف بالفعل. يحتاج المطور فقط إلى توجيه `OPENAI_BASE_URL` إلى نقطة نهاية Bedrock Mantle الإقليمية وتمرير `OPENAI_API_KEY` التي تم إنشاؤها لـ Bedrock. بعد ذلك، يمكنك استخدام نفس الاستدعاءات: `client.files.create()` و `client.fine_tuning.jobs.create()` و `client.chat.completions.create()`. بمعنى آخر، الحاجز ليس في SDK جديد، بل في مدى جودة صياغتك لمعيار جودة الإجابة.

البيانات ودالة Reward

في المثال، تستخدم AWS مجموعة بيانات GSM8K لمسائل الرياضيات المدرسية. يتم تحميل البيانات من خلال Files API بصيغة JSONL: تحتوي كل سطر على كتلة `messages`، وللمهام التي يتم تقييمها، يتم إضافة `reference_answer`. هذا الصيغة تسمح ليس فقط بإرسال سؤال للنموذج، بل أيضاً بالاحتفاظ بالإجابة المرجعية أو قاعدة التحقق.

في الشرح، يتم عرض منفصل أن الـ prompt يمكن أن يتم هيكلته مقدماً بحيث تكون الإجابة النهائية سهلة الاستخراج تلقائياً — على سبيل المثال، في صيغة خاصة مثل `\boxed{}` أو بعد علامة `####`.

العقدة الرئيسية للمخطط بأكمله هي دالة reward في AWS Lambda. في العرض التوضيحي، تستقبل المسارات، وتجد آخر إجابة للمساعد، وتستخرج الإجابة الصحيحة من `reference_answer`، وتُرجع درجة من 0 إلى 1. بالنسبة للرياضيات، هذا ببساطة فحص ثنائي، لكن المنطق غير محدود بهذه الحالات فقط. تؤكد AWS بشكل منفصل أنه يمكن بناء قواعد مخصصة في Lambda، وللمهام الأقل رسمية، يمكن استخدام منهج model-as-a-judge. إضافة نقطة مهمة للمؤسسات: البيانات لا تترك البيئة المحمية من AWS أثناء العملية ولا تُستخدم لتدريب نماذج Bedrock.

التدريب والتشغيل

إطلاق التدريب نفسه يبدو مدمجاً جداً: في `fine_tuning.jobs.create()`، تمرر النموذج الأساسي وملف التدريب ونوع الطريقة `reinforcement` و ARN معيّن Lambda والمعاملات الزائدة. يتضمن المثال `openai.gpt-oss-20b` وحقبة واحدة و `batch_size=4` و `learning_rate_multiplier=1.0`، على الرغم من أن الوثائق توصي بالبدء بقيمة أقل من واحد من أجل الاستقرار. ثم ينشئ Bedrock الـ job بنفسه، ويحسب الخطوات، ويحفظ نقاط تفتيشية وسيطة يمكن استخدامها لتقييم الجودة قبل انتهاء التدريب.

أثناء التدريب، تقترح AWS مراقبة ليس فقط حالة الـ job، بل أيضاً الأحداث مع المقاييس. في المثال، ينفذ job على مجموعة GSM8K 67 خطوة، وتصعد منحنى reward من حوالي 0.56 إلى نطاق 0.85–0.97 بالفعل في منتصف التدريب. في الوقت نفسه، تصبح الإجابات أقصر، مما يُفسره المؤلفون كعلامة على أن النموذج تعلم حل المهام بدقة أكبر بدون ثرثرة غير ضرورية.

  • `critic_rewards_mean` — الإشارة الرئيسية: إذا ارتفعت، يتعلم النموذج
  • `actor_entropy` — يوضح ما إذا كان التنوع في الإجابات ينهار في انهيار الوضع
  • `actor_grad_norm` — يساعد في الكشف عن عدم الاستقرار إذا بدأت التدرجات بالقفز بشكل حاد
  • `response_length_mean` — مفيد ضد reward hacking، عندما يبدأ النموذج بتضخيم الإجابات من أجل الدرجة

بعد انتهاء الـ job، لا يحتاج النموذج إلى نشر منفصل. يكفي الحصول على `fine_tuned_model` من تفاصيل الـ job ونداؤه مباشرة من خلال Chat Completions API أو Responses API، بما في ذلك البث. هذه هي الميزة العملية الرئيسية للمخطط بأكمله: التدريب والاستنتاج يبقيان في نفس مشهد API.

توضح وثائق Bedrock بشكل منفصل أن المسار المتوافق مع OpenAI لـ fine-tuning متاح حالياً لـ `openai.gpt-oss-20b` و `qwen.qwen3-32b` في المنطقة `us-west-2`.

"لا نقطة نهاية منفصلة ولا استضافة."

ماذا يعني هذا

تريد AWS بوضوح جعل reinforcement fine-tuning ليس فضول بحثي، بل أداة هندسية عادية. إذا كان لدى فريق بالفعل كود لـ OpenAI SDK ومنطق reward واضح، يصبح الدخول إلى RFT ملحوظاً أسهل: يمكنك البدء بـ 100–200 مثال، التحقق من المقاييس، مقارنة النقاط التفتيشية، وفهم ما إذا كان التضبيط سيؤدي إلى نموذج أرخص وأسرع لمهمة محددة. هذا مثير للاهتمام بشكل خاص للرياضيات والأكواد والسيناريوهات الأخرى حيث يمكن التحقق من جودة الإجابة تلقائياً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…