أوضحت AWS كيفية إجراء fine-tuning لـ Amazon Nova باستخدام LLM كحَكَم للمهام المؤسسية المعقدة
أظهرت AWS كيفية استخدام LLM-as-a-judge في reinforcement fine-tuning لنماذج Amazon Nova. وبدلًا من الوسم اليدوي، يمنح نموذج منفصل مكافآت وفق معايير الدقة…
معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
شرحت AWS بالتفصيل كيفية تطبيق التحسين الدقيق بالتعزيز مع نهج LLM-كحكم لنماذج Amazon Nova. بدلاً من التعليق اليدوي أو مجموعة من القواعس المحددة مسبقاً، يقيّم نموذج لغة منفصل جودة الإجابة، ويصبح حكمه إشارة مكافأة للتدريب.
لماذا يكون الحكم ضروريّاً
وفقاً لـ AWS، يمكن بناء RFT القياسي إما على قواعس قابلة للتحقق مثل مطابقة السلسلة الدقيقة، أو على مخطط يقيّم فيه نموذج لغة آخر الإجابة مقابل عدة معايير في نفس الوقت. الخيار الثاني ضروري عندما لا يمكن اختزال الجودة إلى صيغة واحدة. بالنسبة للمهام المؤسسية، ما يهم ليس فقط الدقة الواقعية، بل أيضاً النبرة والأمان والاكتمال والملاءمة والامتثال للسياسات الداخلية.
في هذا النهج، لا يقتصر نموذج الحكم على إعطاء درجة، بل يساعد أيضاً على شرح سبب كون إجابة واحدة أفضل من أخرى. تؤكد AWS أن هذا المخطط يسرّع التكرارات: ترى الفرق بالضبط حيث يقصر النموذج ويمكنها تصحيح دالة المكافأة بسرعة أكبر. هذا مفيد بشكل خاص في المجالات حيث لا يبدو الخطأ كعطل واضح، بل يتجلى في دقائق الصياغة أو الخطر الذي تم تفويته أو التفكير الضعيف.
ستة خطوات للإعداد
تقسم AWS تطبيق LLM-كحكم إلى عدة خطوات عملية. أولاً، يجب اختيار نوع التقييم: قائم على معايير، حيث يعطي الحكم درجة مطلقة لإجابة واحدة، أو قائم على التفضيل، حيث يقارن بين خيارين ويختار الأفضل. إذا لم تكن هناك تفضيلات جاهزة، توصي الشركة بالبدء بنهج معايير وحد أدنى من معايير النجاح/الفشل بدلاً من مقياس من 1 إلى 10.
- اختر وضع الحكم: التقييم المطلق أو المقارنة الثنائية
- حدد معايير الجودة بوضوح مع مؤشرات قابلة للملاحظة
- اختر نموذج حكم مناسب لمجالك والميزانية من خلال Amazon Bedrock
- اطلب إخراج JSON منظماً حتى يمكن تحليل المكافآت بشكل موثوق
- ربط دالة المكافأة بمقاييس المنتج وأضف بنية Lambda مستقرة
يتم إيلاء التركيز الخاص على البنية التحتية. توصي AWS بعدم الاعتماد على الحكم وحده وملحقه بفحوصات سريعة حتمية: صحة JSON وطول الإجابة ومطابقة اللغة ومرشحات الأمان. يجب أن يتعامل Lambda المكافأة مع آلاف التقييمات في كل خطوة تدريب، لذا يُنصح بالتراجع الأسي لاستدعاءات Bedrock والمعالجة المتوازية عبر ThreadPoolExecutor أو الأنماط غير المتزامنة والمهل الزمنية حتى 15 دقيقة والتزامن المخصص حول 100 للتكوينات النموذجية. إذا فشل الحكم أو API، من الأفضل إرجاع مكافأة محايدة بدلاً من كسر خطوة التدريب بأكملها. بالإضافة إلى ذلك، يجب أن تحافظ الفرق على مجموعة من اختبارات الانحدار لخط أنابيب الحكم نفسه.
دراسة حالة العقود
كتوضيح، تصف AWS مشروعاً مع شريك من القطاع القانوني. كان الهدف تحليل العقود الجديدة تلقائياً ومقارنتها بالقواعس الداخلية والعقود السابقة ومتطلبات التشريعات وإنتاج JSON مع التعليقات وأنواع الملاحظات والإجراءات الموصى بها. كانت مجموعة البيانات الأولية صغيرة وتحتوي على عقود معلّقة من قبل الخبراء، لذا أنتج التحسين الدقيق الموجه الكلاسيكي نتائج محدودة.
بالنسبة لـ RFT، استخدموا نموذج حكم منفصل GPT OSS 120B ومحفز نظام مخصص. تحقق الحكم مما إذا كان التعليق يعتمد فعلاً على جزء من العقد نفسه وما إذا كان متسقاً مع المستند المرجعي وما إذا كان يمكن اتخاذ إجراء بناءً عليه. ثم لفوا هذا في دالة Lambda وأطلقوا التدريب من خلال SDK Nova Forge مع عدة أجيال لكل مثال وحد من الاستدعاءات المتزامنة 100.
نتيجة لذلك، حققت Amazon Nova 2 Lite بعد RFT درجة مجمعة 4.33 من 5 والتحقق المثالي من مخطط JSON، متفوقة على Claude Sonnet 4.5 و Claude Haiku 4.
5. تلاحظ AWS بشكل منفصل أن إصدارات SFT أظهرت قطع أثرية مثل التعليقات المتكررة والأحرف Unicode الغريبة، بينما لم تكن نقاط تفتيش RFT كذلك. والأهم من ذلك، احتفظ النموذج بنتائج قوية حتى بعد تغيير محفز الحكم، مما يعني أنه تعلم ليس صيغة تسجيل محددة بل أنماط جودة أكثر عمومية.
تم تحديد العيب أيضاً بوضوح: كان RFT يتطلب 4-8 لفات لكل مثال تدريبي وكان أكثر تكلفة من الناحية الحسابية.
ما يعنيه هذا
تعزز AWS بشكل فعال RFT مع LLM-كحكم كنهج عملي لضبط النماذج على سيناريوهات مؤسسية حساسة حيث القواعس البسيطة غير كافية والتعليق اليدوي مكلف جداً. إذا كان نهج Amazon Nova قابلاً للتوسع حقاً للإنتاج، فإن الشركات في القطاعات القانونية والمالية والصحية تحصل على القدرة على ضبط النماذج وفقاً لمعاييرها الخاصة مع التحكم الأفضل في تنسيق الإخراج والجودة والقابلية للتفسير.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.