طورت NVIDIA طريقة لتدريب الشبكات العصبية بدقة 4-bit
طورت NVIDIA تقنية NVFP4، وهي منهجية جديدة لتدريب نماذج الشبكات العصبية بدقة 4-bit بدلًا من 8-bit التقليدية. وتخفض هذه الطريقة متطلبات الذاكرة إلى النصف، بينما ل

قدمت NVIDIA NVFP4 — منهجية جديدة لتدريب الشبكات العصبية بدقة 4 بت. يتيح ذلك توفيرًا كبيرًا في الذاكرة والموارد الحسابية عند تدريب النماذج الكبيرة.
كيف يعمل
يستخدم النهج القياسي دقة 8 بت (FP8) أو 16 بت (BF16) لتخزين النتائج الوسيطة وتدرجات التدريب. تمكنت NVIDIA من خفض هذه متطلبات الذاكرة بمقدار النصف من خلال الانتقال إلى صيغة NVFP4 بـ 4 بت.
لا تقلل الطريقة الدقة فحسب، بل تجمع بين عدة تقنيات: الاستخدام الانتقائي لـ BF16 الأكثر دقة على الطبقات الحرجة للنموذج، والتحويلات الرياضية الخاصة لبيانات إدخال التدرج (تحويلات Hadamard العشوائية 16×16) والتقريب العشوائي أثناء الحسابات.
تقليديًا، كان يُعتبر التدريب بـ 4 بت محفوفًا بالمخاطر — مع التدريب المطول، تتراكم أخطاء التقريب وتؤدي إلى تدهور النموذج. اختبرت الشركة NVFP4 على نموذج Mamba-Transformer هجين يحتوي على 12 مليار معامل، حيث تم تدريبه على 10 تريليونات رمز — أطول تجربة عامة لتدريب 4 بت حتى الآن. هذا يثبت أنه بالمنهجية الصحيحة، لا تتراكم الأخطاء الرقمية بشكل كارثي.
تجاوزت النتائج التوقعات
كانت المقياس الرئيسي هو الدقة في معيار MMLU-Pro — اختبار معارف شامل يغطي الرياضيات والعلوم الطبيعية والعلوم الإنسانية والمجالات الأخرى. حقق نموذج NVFP4 نسبة 62.58%، وهو أقل بحوالي 0.04% من نموذج تم تدريبه بطريقة FP8 التقليدية (62.62%). للتطبيقات العملية، هذا الفرق غير مهم تمامًا — الدقة ضمن حدود خطأ القياس.
على خلفية توفير الذاكرة بمعامل اثنين، هذه حالة نادرة حيث أن تقليل الدقة الرقمية لم يؤدِّ إلى انخفاض ملحوظ في جودة النتائج. هذا يعني أن NVFP4 لا يضحي بالصحة من أجل توفير الموارد.
- تقليل الذاكرة: بمعامل 2x مقارنة بـ FP8
- فقدان الدقة في المعيار: أقل من 0.1%
- حجم التجربة: 10 تريليونات رمز
- الهندسة المعمارية: نموذج Mamba-Transformer هجين يحتوي على 12 مليار معامل
ماذا يعني هذا للصناعة
النتيجة مهمة للشركات التي تدرب النماذج من الصفر. توفير الذاكرة بمعامل اثنين يعني أن نفس حجم الحسابات يمكن إجراؤها بشكل أسرع وأرخص، أو يمكن استثمار الموارد المحفوظة في تدريب نماذج أكبر. إذا كانت شركتك تدرب نموذجًا على 1000 يوم GPU A100، يمكن لـ NVFP4 تقليل هذا إلى 500 يوم GPU مع الحفاظ على الجودة.
بالنسبة للباحثين، يفتح هذا فرصًا جديدة للتجريب مع الهندسات المعمارية وأحجام البيانات والمعاملات الفائقة. يصبح من الأسهل اختبار الأفكار الجديدة على نماذج أكبر في يوم واحد بدلاً من نماذج أصغر على مدى أسبوع.
ومع ذلك، تتطلب الطريقة التحقق الإضافي على أنواع نماذج أخرى — خاصة على المحولات النقية والنماذج ذات الهندسات المعمارية المختلفة. حتى الآن، أظهرت NVIDIA النتائج فقط على هندسة Mamba-Transformer الهجينة. من المهم أيضًا فهم أن التدريب بـ 4 بت هو تقنية متخصصة تتطلب تحسينات برمجية محددة ودعم الأجهزة (الدعم الكامل موجود حاليًا فقط على وحدات معالجة الرسومات NVIDIA).