التدريب

تقطير المعرفة (Knowledge Distillation)

تقطير المعرفة هو تقنية ضغط يتم فيها تدريب نموذج طالب صغير لمطابقة توزيع الإخراج لنموذج معلم أكبر، مما ينتج عنه نموذج مضغوط يحتفظ بمعظم دقة المعلم.

تقطير المعرفة هي تقنية ضغط النماذج والتدريب التي يتم فيها تعليم شبكة طالب أصغر وأكثر كفاءة لتكرار سلوك شبكة معلم أكبر وأكثر قدرة. بدلاً من تدريب الطالب فقط على تسميات أرضية واحدة (one-hot)، فإنه يتعلم مطابقة توزيع softmax الكامل للمعلم، الذي يشفر معلومات أغنى عن العلاقات بين الفئات وعدم اليقين الذي تعلمه المعلم.

تمت صياغة هذه التقنية بشكل رسمي من قبل Geoffrey Hinton وOriol Vinyals وJeff Dean في ورقة عام 2015 (NeurIPS 2015). الآلية الرئيسية هي مقياس درجة الحرارة: قسمة logits الإخراج للمعلم على معامل درجة الحرارة T > 1 قبل تطبيق softmax ينتج توزيعات احتمالية أنعم تخصص كتلة احتمالية ذات معنى للفئات القريبة. هذه الأهداف الناعمة (soft targets) تحمل معلومات أكثر من التسميات one-hot - صورة كلب تتلقى احتمالية 2% تحت فئة القط تنقل التشابه الهيكلي بين الفئتين بطريقة لا يمكن للتسمية one-hot القيام بها. خسارة الطالب عادةً ما تكون مزيجاً مرجحاً من الإنتروبيا المتقاطعة ضد أهداف المعلم الناعمة والإنتروبيا المتقاطعة المعيارية ضد التسميات الأرضية الحقيقية. التوسعات مثل تقطير مستوى الميزات وتحويل الانتباه تحاذي بالإضافة إلى ذلك التنشيطات في الطبقات الوسيطة وخرائط الانتباه بين المعلم والطالب، مما يحسن جودة النقل بشكل أكبر.

يهم تقطير المعرفة لأن أكبر النماذج غير عملية للبيئات الحساسة للكمون أو المحدودة بالموارد - الأجهزة المحمولة والأجهزة المضمنة ونقاط نهاية الاستدلال السحابي الفعالة من حيث التكلفة. التقطير يسد هذه الفجوة: نموذج طالب بحجم معين يتفوق باستمرار على نموذج مستقل مدرب من نفس الحجم، لأن الأهداف الناعمة توفر إشارة تدريب أغنى من التسميات وحدها. أظهر DistilBERT (Hugging Face، 2019) أن طالباً بـ 66 مليون معامل يحتفظ بحوالي 97% من أداء BERT-base على GLUE مع 60% من سرعة الاستدلال و 40% أقل معاملات.

بحلول عام 2026، يتم تطبيق التقطير على نطاق واسع عبر معالجة اللغات الطبيعية والرؤية والكلام. في عصر نماذج اللغات الكبيرة يأخذ أشكالاً جديدة: أطلقت DeepSeek متغيرات مقطرة من نموذج DeepSeek-R1 الخاص بها في أوائل عام 2025 - تتراوح من 1.5 مليار إلى 70 مليار معامل وتم تدريبها على آثار استدلال طويلة يولدها النموذج الكامل - محققة درجات منافسة على معايير رياضية وبرمجية بجزء صغير من تكلفة الاستدلال. تعتمد نماذج Google's Gemini Nano، المصممة للاستدلال على الجهاز على هواتف Pixel، على التقطير من نقاط تفتيش Gemini الأكبر. تعتمد نماذج Apple على الجهاز المشحونة في iOS 18 بالمثل على التقطير لضغط قدرات النموذج الأساسية في حدود الذاكرة والطاقة الضيقة على أجهزة الهواتف الذكية.

مثال

قامت Hugging Face بتدريب DistilBERT عن طريق التقطير من نموذج BERT-base الذي يحتوي على 110 ملايين معامل باستخدام أهداف ناعمة عند درجة حرارة 4؛ الطالب الناتج الذي يحتوي على 66 مليون معامل يعمل بسرعة 60% أسرع في الاستدلال بينما يحقق حوالي 97% من أداء BERT-base عبر مجموعة معايير GLUE.

مصطلحات مرتبطة

← المسرد