Habr AI→ المصدر

قارنت ecom.tech بين الضبط الدقيق التطوري لـ Qwen3-4B مع SFT و GRPO لاختبارات Kotlin

حاولت ecom.tech ضبطاً دقيقاً غير تقليدي لـ Qwen3-4B-Instruct لإنشاء اختبارات الوحدة في Kotlin — باستخدام Evolution Strategies بدلاً من SFT و GRPO الكلاسيكية…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
قارنت ecom.tech بين الضبط الدقيق التطوري لـ Qwen3-4B مع SFT و GRPO لاختبارات Kotlin
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

اختبرت فرق ecom.tech ما إذا كان يمكن جعل نموذج صغير مثل Qwen3-4B-Instruct يكتب اختبارات وحدات مفيدة لأنظمة Kotlin الخلفية ليس من خلال الضبط الدقيق الموجه القياسي، بل من خلال خوارزمية تطورية تسمى Evolution Strategies. كانت النتيجة العملية قوية: في مهمة توليد الاختبارات، تفوق هذا النهج على كل من الضبط الدقيق الموجه و GRPO من حيث المكافأة النهائية والتغطية. لكن إلى جانب الفوز في التخصص، رأى الباحثون الجانب السلبي: كلما كان النموذج مضبوطاً بشكل أفضل للمهمة الضيقة، كلما فقد بشكل ملحوظ بعض قدراته العامة.

كان الدافع للتجربة عملياً تماماً. داخل خدمة توليد الأكواد الخاصة بهم، واجهت الفرقة مشكلة نموذجية: نماذج اللغة الكبيرة تنتج أولاً كوداً يعمل، ثم تكتب اختبارات له تبدو معقولة لكنها لا تتبع الاتفاقيات الداخلية ولا تتحقق دائماً من منطق الأعمال المهم حقاً. لتقييم ما إذا كان يمكن إصلاح ذلك من خلال الضبط الدقيق، قام الباحثون بتجميع مجموعة بيانات من 1500 مثال: 1300 للتدريب و 200 للاختبار. تلقى النموذج ليس فقط الفئة التي يتم اختبارها، بل السياق الكامل حولها، التي تم جمعها بواسطة وكيل يعتمد على qwen-code، وكان يجب أن ينتج ملف اختبار وحدة جاهز للاستخدام.

استخدموا مقياسين للتقييم. الأول كان Coverage، لكن ليس بالمعنى المألوف لتغطية الأسطر، بل كتغطية وظيفية: مدى جودة تغطية الاختبار المُنشأ فعلاً للوظيفة العامة نفسها المُختبرة. الثاني كان CodeBLEU، وهو مقياس ينظر ليس فقط إلى تطابق الرموز بل أيضاً إلى بنية الجملة وتدفق البيانات في الكود. نظراً لأن CodeBLEU القياسي لا يدعم Kotlin، كان على الفرقة إضافة هذا الدعم بشكل منفصل من خلال tree-sitter-kotlin ومجموعة مخصصة من الكلمات الأساسية.

كانت دالة المكافأة بسيطة: 0.6 من الوزن ذهب إلى CodeBLEU و 0.4 إلى Coverage، لمراعاة كل من شكل الكود وفائدته العملية. كانت جوهر Evolution Strategies في هذه التجربة يعمل كما يلي: بدلاً من التحديثات المبنية على التدرج، أخذوا حوالي 30 نسخة مشوهة من النموذج الأساسي، وأضافوا ضوضاء غاوسية إلى الأوزان، ثم جعلوا كل نسخة تنتج إجابة في وضع حتمي وقيموها بالمكافأة. بعد ذلك، تم نقل الأوزان الأساسية نحو التغييرات التي أنتجت أفضل النتائج. هذا النهج أسهل في المعالجة المتوازية، لا يتطلب تخزين التدرجات الثقيلة، وفقاً لرأي المؤلفين، أقل عرضة للانجراف نحو المكافآت.

استخدموا مشروعاً مفتوح الكود Evolution Strategies at Scale مع تسريع vLLM وقاموا بتدريب النموذج على مجموعة من 8 H100s. نظراً لتكلفة الممر الكامل عبر مجموعة البيانات في كل تكرار، قدموا المعالجة على دفعات: اختيار 32 مثالاً عشوائياً لكل دفعة.

أظهرت التجربة تحسناً ملحوظاً بعد 500 تكرار فقط. بنهاية التدريب، كان CodeBLEU قد زاد بنسبة 21.3% مقارنة بالنموذج الأساسي، وكانت Coverage قد زادت بنسبة 18.6%. أعطت أفضل نتيجة ES تغطية 0.7381 والحد الأقصى للمكافأة النهائية؛ وفقاً للمقاييس المختارة، تفوقت ليس فقط على SFT و GRPO، بل حتى على Qwen3-Coder-480B الأكبر.

كانت الصورة مع الطرق المنافسة كاشفة: أنتج SFT اختبارات سليمة من حيث البناء النحوي لكنها كانت تكافح للوصول إلى المنطق المطلوب، بينما تدهور GRPO فعلاً في كلا المقياسين في هذا الإعداد.

بالنسبة لمهمة هندسية ضيقة، يبدو الاستنتاج مباشراً: يمكن فعلاً أن يكون الضبط الدقيق التطوري أداة عملية حتى للنموذج الصغير نسبياً. لكن ذهبت الأمور بعد ذلك نحو الجزء الأقل متعة.

في ضوء الأعمال الحديثة حول النسيان الكارثي، تحققت الفرقة بشكل منفصل مما يحدث للمعرفة العامة للنموذج المضبوط بدقة. قاموا بتشغيل نسخة ES من Qwen3-4B-Instruct عبر GPQA—معيار علمي صعب. كان الانخفاض في الدقة بمتوسط 2.1% في zero-shot و 5.3% في five-shot chain-of-thought. تأثرت القدرة على استخدام الإشارات السياقية بشكل خاص: انخفض الفائدة من الأمثلة الـ few-shot بنسبة 41–72%.

تتطابق الفرضية مع ما تظهره الأبحاث الأخرى: يحدث ES تغييرات كثيفة على كل الأوزان تقريباً للنموذج، مما يساعده على حل المهمة المستهدفة بشكل أفضل لكنه يسبب له الانحراف أكثر عن الخط الأساسي ونسيان بعض المهارات السابقة.

ماذا يعني هذا عملياً؟ لا تبدو Evolution Strategies كبديل عام لـ RL، بل كأداة متخصصة قوية للشركات التي تهتم أكثر باستخراج أقصى الأداء محلياً من نموذج لخط أنابيب محدد. إذا كانت هناك دالة مكافأة واضحة، موارد حسابية كافية، وتسامح مع المقايضة في القدرات العامة، يمكن لـ ES بالفعل تقديم مكاسب كبيرة.

لكن لفرق المنتج، فهو أيضاً تذكير: تحسين الجودة في مهمة واحدة ليس مجاناً، والمعركة القادمة ستدور ليس فقط حول مقاييس جديدة، بل حول طرق لضبط النماذج بدقة دون فقدان مرونتها الأساسية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…