Habr AI→ المصدر

BorisovAI اختبرت MoE على RTX 4090 وأظهرت لماذا تُفسد perplexity تقييم LLM

أجرت BorisovAI 22 تجربة على بنية MoE يُضاف فيها خبراء جدد إلى نموذج مجمّد كـ plugins. وعلى بطاقة RTX 4090 واحدة، لم يسبب هذا النهج أي تدهور وخفّض perplexity…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
BorisovAI اختبرت MoE على RTX 4090 وأظهرت لماذا تُفسد perplexity تقييم LLM
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

نشرت BorisovAI تحليلاً لـ 22 تجربة بمعمارية MoE، حيث يتم توصيل خبراء جدد فوق نموذج لغة مجمد مثل المكونات الإضافية. على RTX 4090 واحد، أظهر المخطط صورة هندسية شبه مثالية: تدهور صفر للمهارات القديمة وتوجيه دقيق وتقليل ملحوظ للدهشة. لكن عند اختبار النظام على معيار رياضي، اتضح أن المقياس الجميل يمكن أن يؤدي في اتجاه خاطئ تماماً.

كيفية بناء المخطط

قام الباحث بتجميد النموذج الأساسي بالكامل وأضاف خبيراً قابلاً للتدريب صغيراً لكل طبقة MLP، بالإضافة إلى جهاز توجيه في الأعلى يحتوي على حوالي 37 ألف معامل. المنطق بسيط: العمود الفقري لا يتم لمسه، يتم تدريب المهارة الجديدة بشكل منفصل، ثم يتم ضبط جهاز التوجيه فقط لإرسال الرموز الصحيحة إلى الخبير الصحيح. استغرق تدريب مجال واحد جديد حوالي نصف ساعة: حوالي 15 دقيقة للخبير المعزول و15 دقيقة أخرى للتكامل في النظام العام. عبر ثلاث نطاقات، بدا المخطط مقنعاً جداً وبدون تنازلات تقريباً:

  • GPT-2 124M بـ 4 مجالات قللت الدهشة بنسبة 33.4%
  • Pythia-410M بـ 6 مجالات قللت الدهشة بنسبة 34.3%
  • Pythia-1B بـ 8 مجالات قللت الدهشة بنسبة 31.2%
  • وصلت دقة التوجيه إلى 96%، وبقي تدهور المهارات القديمة عند 0.000%

بالإضافة إلى ذلك، اختبر المؤلف عدة تقنيات شعبية يُنصح بها غالباً للـ MoE. جعلت عقوبات موازنة الحمل النتيجة أسوأ بنسبة 11–27%، وأدى التدريب المشترك للخبراء والموجه إلى انهيار الجودة. كانت الموازنة بدون خسارة هي الأفضل: فقد أبقت جميع الخبراء "أحياء" بدون خسارة إضافية منفصلة. في هذه المرحلة، بدا كل شيء بمثابة حجة قوية للـ LLMs المعيارية، حيث يمكن توصيل القدرات الجديدة بدون إعادة تدريب كاملة.

حيث انكسر المقياس

بدأت المشاكل عندما تم نقل المعمارية إلى Qwen 2.5 3B وحاولنا إضافة خبير رياضي. وفقاً للمقاييس الداخلية، كان كل شيء مرة أخرى مثالياً: انخفضت الدهشة على النصوص الرياضية بنسبة 23.9%، نما الفجوة بين المجالات 64.9 مرة، واختار جهاز التوجيه الخبير الصحيح بدون أخطاء تقريباً. لكن على GSM8K، الذي يختبر القدرة على حل مشاكل الكلمات المدرسية، انخفض النموذج من 74.4% إلى 65.8%.

"نموذج يتحدث لغة الرياضيات ليس لديه على الإطلاق أي قدرة على حل المشاكل."

هذا هو الاستنتاج الأساسي لكل العمل. الخبير المدرب على الكتب المدرسية والمقالات أتقن فعلاً إحصائيات لغة الرياضيات: حيث تظهر الصيغ عادة، وأي المصطلحات تأتي بجانبها وكيف يبدو النص "الصحيح" من هذا المجال. لكن GSM8K يتطلب ليس فقط التعرف على الأسلوب، بل سلاسل من التفكير. لذلك، كان تقليل الدهشة هنا يقيس ليس تحسناً حقيقياً في التفكير، بل ببساطة نمذجة أفضل للنص الخاص بالمجال. أعاد الباحث التحقق من البدائل بشكل منفصل - فك تجميد الطبقات العليا والتدريب المشترك والمخطط ثنائي المراحل - لكن جميع الخيارات بقيت في نفس ناقص 8.4–8.6 نقطة مئوية تقريباً.

ما الذي نجح بشكل أفضل

جاء اختراق عملي بعد التقطير الذاتي. بدلاً من النصوص الرياضية الخام، تم تدريب الخبير على حلول خطوة بخطوة حققها النموذج الأساسي نفسه بالفعل بشكل صحيح. من أجل هذا، تم أخذ 750 مهمة GSM8K: حل النموذج 638 منها، وتم تجميع مجموعة بيانات من 119 ألف رمز من هذه الحلول. هذا أصغر بـ 33 مرة من مجموعة 4 ملايين رمز من الكتب المدرسية والمقالات، لكن الصيغة اتضحت أنها أقرب بكثير للاستدلال الفعلي. انقلبت النتيجة عن التوقعات. بعد هذا التدريب، ارتفع GSM8K إلى 75.5%: هذا أعلى بـ 1.1 نقطة مئوية من النموذج الأساسي و9.7 نقاط أفضل من متغير النص الرياضي الخام. وفي الوقت نفسه، ساءت الدهشة على العكس بنسبة 17.8%.

بالإضافة إلى ذلك، اتضح أن حتى تعبئة البيانات لها أهمية: أعطى صيغة "سؤال/جواب" نقاط 2–3 أخرى أكثر من الصيغة الأكاديمية الأكثر "المشكلة/الحل". بعبارة أخرى، من الأكثر فائدة تدريب الخبير على شكل الاستخدام المستقبلي وليس على مجموعة بيانات مجردة "عالية الجودة". محاولة تحويل هذا النهج إلى دورة تحسين ذاتي لم تنجح. ألمحت الجولات الأولى إلى النمو من 75.5% إلى 76.0%، لكن بعد تثبيت البذرة وتوسيع العينة، اتضح أن التأثير كان ضجيجاً إحصائياً. في البداية الباردة، وصل الخبير الجديد بسرعة إلى هضبة، وفي البداية الدافئة، حتى انخفضت الجودة لأن نفس المهام تكررت كثيراً بين الدورات وأفرط الخبير في التدريب. فشل تنعيم التسميات بشكل منفصل: في الرياضيات كلفها 9 نقاط أخرى.

ماذا يعني هذا

لمطوري LLM، هناك على الفور استنتاجان عمليان هنا. أولاً، يمكن للمعمارية المعيارية مع الخبراء القابلين للتوصيل فعلاً إضافة مهارات المجال بدون نسيان كارثي. ثانياً، تقييم هذه الأنظمة من خلال الدهشة أمر خطير: يمكن أن تتحسن بدقة عندما يبدأ النموذج في التفكير بشكل أسوأ. إذا كانت المهمة تتعلق بالمنطق أو الكود أو الرياضيات، يجب أن يكون المعيار الرئيسي هو معايير السلوك، وليس فقط المقاييس اللغوية الجميلة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…