أوضحت NVIDIA كيفية تدريب نماذج transformer بدقة منخفضة من دون فقدان الجودة
نشرت NVIDIA دليلاً تقنياً لتدريب نماذج transformer بدقة منخفضة — FP8 وBF16. وكلما كبر النموذج، ارتفعت تكلفة كل دورة من التجربة. ويتيح التدريب منخفض الدقة خفض…
معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
نشرت NVIDIA دليلاً شاملاً على مدونة المطورين (Developer Blog) حول تحسين معماريات المحول (Transformer) للتدريب بحسابات دقة منخفضة — FP8 و BF16. المقالة موجهة إلى المهندسين الذين يرغبون في تقليل تكلفة عمليات التدريب دون المساس بجودة النموذج.
لماذا تحتاج الفرق إلى هذا
تشكل المحولات أساس معظم نماذج اللغة والنماذج التوليدية الحديثة. مع نمو أحجام النماذج — من مليارات إلى عشرات مليارات من المعاملات — تزداد تكلفة تشغيل التدريب الواحد بشكل أسي. كل تكرار للتجربة يستهلك ساعات GPU أكثر، مما يؤدي إلى إبطاء التطوير وزيادة التكاليف. في الواقع العملي، هذا يعني أن التدريب البطيء ليس مجرد عدم راحة تقنية. إنه قيد على عدد الفرضيات التي يمكن لفريق اختبارها في ربع واحد وحجم النموذج الذي يمكنهم تحمل تكلفته. تسمي NVIDIA تسريع المحولات ليس بالتحسين، بل بشرط للقدرة التنافسية.
ما هو التدريب منخفض الدقة
يتم إجراء التدريب القياسي للشبكات العصبية بصيغة 32 بت (FP32)، والتي توفر دقة رقمية عالية لكنها تستهلك الكثير من الذاكرة وتعمل بشكل أبطأ على معالجات GPU الحديثة. يسمح تقليل عرض البت بضمان المزيد من البيانات في ذاكرة الفيديو وتسريع العمليات المصفوفية:
- FP16 — أرقام الفاصلة العائمة 16 بت؛ مدعومة من معظم معالجات GPU الحديثة
- BF16 — Brain Float 16؛ نطاق ديناميكي أوسع، أنسب للتدريب غير المستقر للنماذج الكبيرة
- FP8 — صيغة 8 بت، متاحة في معمارية Hopper (H100, H200)؛ توفر زيادة مضاعفة في إنتاجية العمليات المصفوفية مقابل BF16
- INT8 — عدد صحيح 8 بت؛ يُستخدم بشكل أكثر شيوعاً للاستدلال أكثر من التدريب
التحدي الرئيسي هو الحفاظ على الاستقرار العددي عند تقليل الدقة بهذه الدرجة. الانتقال الساذج من FP32 إلى FP8 يؤدي إلى تدرجات متباعدة وتدريب غير مستقر.
التقنيات التي توصي بها NVIDIA
استبدال الصيغة البسيط لا يعمل، لذا تصف NVIDIA عدة نهج مثبتة.
الدقة المختلطة (Mixed Precision). يتم تخزين الأوزان في FP32، بينما يتم تنفيذ التمريرات الأمامية والخلفية في FP16 أو BF16. هذا يجمع بين سرعة الحساب منخفض الدقة مع موثوقية تخزين المعاملات كامل الدقة — المعيار الفعلي لمعظم أنابيب التدريب الحديثة.
تحجيم الخسارة (Loss Scaling). يمثل FP16 الأرقام الصغيرة جداً بشكل سيء — قد تصبح التدرجات في الطبقات اللاحقة صفرية. يزيد تحجيم الخسارة بشكل مصطنع من قيمة دالة الخسارة قبل التمرير الخلفي، ثم يعيد تحجيم التدرجات. التطبيقات الحديثة تفعل ذلك تلقائياً وبشكل متكيف.
TransformerEngine. مكتبة متخصصة من NVIDIA تدير الدقة تلقائياً على مستوى طبقات المحول الفردية. تدعم FP8 على Hopper، وتتكامل مع PyTorch و JAX و Megatron-LM. بدلاً من إعادة كتابة جميع رمز التدريب، يقوم المهندس ببساطة بتوصيل TransformerEngine والحصول على تسريع FP8 مع تغييرات ضئيلة.
"مع نمو النماذج، تستهلك عمليات التدريب ساعات GPU وقتاً هندسياً أكثر
فأكثر. هذا يؤثر بشكل مباشر على مدى سرعة تمكن الفرق من إجراء التجارب والحجم الذي يمكنهم تحمل تكلفة النموذج الخاص بهم"، — مدونة مطوري NVIDIA.
ما معنى هذا
يصدر الدليل في الوقت الذي أصبحت فيه كفاءة التدريب مهمة مثل دقة النموذج. تتلقى الفرق على H100 أو H200 إرشادات محددة: FP8 عبر TransformerEngine هو أحد أكثر الطرق سهولة الوصول لتقليل ميزانية GPU دون إعادة هندسة المعمارية. بالنسبة للمختبرات الصغيرة، قد يعني هذا الفرق بين القدرة على تدريب نموذج بـ 70 مليار معامل أو الاضطرار إلى التخلي عنه بسبب التكلفة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.
أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع
سبع قصص مهمة فعلاً هذا الأسبوع، مختارة بعناية. بلا ضجيج ولا بيانات صحفية.
تم! تحقق من بريدك للتأكيد.