التدريب

التدريب المسبق (Pre-training)

التدريب المسبق هو مرحلة التدريب الأولية واسعة النطاق التي تتعلم فيها الشبكة العصبية تمثيلات عامة من مجموعة ضخمة باستخدام أهداف التعلم الذاتي، قبل أي ضبط دقيق خاص بالمهمة.

التدريب المسبق هي المرحلة الأولى المهيمنة من حيث الحسابية في تطوير نماذج ذكاء اصطناعي حديثة واسعة النطاق، حيث يتم تدريب شبكة عصبية على مجموعة ضخمة ومتنوعة بشكل عام - غالبًا مئات المليارات إلى تريليونات الرموز لنماذج اللغة - للحصول على تمثيلات عامة الغرض للغة والمعرفة الواقعية وأنماط التفكير.

بالنسبة لنماذج اللغة الكبيرة، فإن الهدف السائد للتدريب المسبق هو التنبؤ التوليدي للرمز التالي: بالنظر إلى سلسلة من الرموز، يتعلم النموذج التنبؤ برمز تالٍ بتقليل فقدان الإنتروبيا المتقاطعة عبر مليارات الأمثلة. تستخدم النماذج التي تقتصر على المشفر فقط مثل BERT نمذجة اللغة المقنعة بدلاً من ذلك، مع التنبؤ برموز مختارة عشوائيًا. في كلا الحالتين، لا تكون هناك حاجة إلى تسميات منسقة يدويًا لأن إشارة الإشراف مستمدة مباشرة من البيانات الأولية (التعلم الذاتي). يتم توزيع التدريب المسبق عبر آلاف وحدات المعالجة الرسومية أو وحدات المعالجة الموزعة (TPU) على مدار أسابيع أو أشهر، مع متطلبات حسابية تُقاس بعشرات الآلاف إلى ملايين ساعات وحدة معالجة الرسوميات.

التدريب المسبق مسؤول عن المعرفة العالمية الواسعة والكفاءة اللغوية وقدرات التفكير التي تجعل النماذج الكبيرة مفيدة عبر العديد من المهام دون إعادة التدريب من البداية. يمكن بعد ذلك تكييف نموذج مدرب مسبقًا مع مهام أو سلوكيات محددة من خلال الضبط الدقيق - بما في ذلك ضبط التعليمات و RLHF - بجزء صغير من تكلفة التدريب الأصلي. أصبح نموذج نقل التعلم هذا هو النهج السائد في معالجة اللغة الطبيعية والرؤية الحاسوبية والذكاء الاصطناعي متعدد الوسائط.

تستخدم المسارات المعاصرة للتدريب المسبق مجموعات بيانات مجمعة من زحف الويب (Common Crawl) والكتب ومستودعات التعليمات البرمجية والأوراق العلمية والمصادر متعددة اللغات، غالبًا بإجمالي 10-30 تريليون رمز. أصبح التدريب المسبق متعدد الوسائط - الجمع بين النصوص والصور والصوت والفيديو - معيارًا، حيث تتعلم نماذج مثل GPT-4o و Gemini 1.5 تمثيلات مشتركة عبر الوسائط. تسمح تقنيات التدريب الفعالة مثل FlashAttention والعوامل الموازية والعوامل الموازية للخط ودقة الحسابات المختلطة بإكمال مسارات التدريب ضمن ميزانيات زمنية وطاقة عملية.

مثال

دربت Meta نموذج LLaMA 3 بحجم 70 مليار معامل على ما يقارب 15 تريليون رمز من النصوص متعددة اللغات والتعليمات البرمجية باستخدام آلاف وحدات معالجة الرسوميات Nvidia H100 على مدار عدة أشهر؛ ثم تم إطلاق نقطة التفتيش الناتجة بشكل علني لكي يتمكن الآخرون من إجراء ضبط دقيق عليها لتطبيقات محددة مثل توليد الأكواد أو تلخيص المستندات.

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد