NVIDIA تسرّع التدريب المسبق لنماذج LLM: NVFP4 على Blackwell مع JAX وMaxText
نشرت NVIDIA دليلاً تقنياً حول التدريب المسبق لنماذج LLM على شرائح Blackwell: تنسيق NVFP4، مع JAX وMaxText، يقلّص زمن التدريب وتكاليف الحوسبة. وكل نقطة مئوية…
معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
يواجه التدريب المسبق لنماذج اللغة الكبيرة (frontier LLMs) حدود الإنتاجية في الأنظمة الحاسوبية. أظهرت NVIDIA كيف يسمح الجمع بين JAX و MaxText والصيغة الجديدة NVFP4 على شرائح Blackwell بتسريع هذه العملية بشكل كبير دون فقدان الجودة.
لماذا تكون كل نسبة مئوية مهمة
عندما يتم التدريب على تريليونات الرموز عبر آلاف المسرعات، فإن توفير حتى نسبة مئوية واحدة من الوقت في كل خطوة يترجم إلى عدة أيام من الوقت الفعلي. على نطاق التدريب المسبق للنماذج الحدودية، هذا يعني تحويلاً مباشراً إلى ملايين الدولارات من نفقات الحوسبة. NVFP4 — صيغة النقطة العائمة بأربعة بت التي ظهرت لأول مرة في معمارية Blackwell — أصبحت إحدى الأدوات الرئيسية لتسريع العمليات المصفوفية. مقارنة بـ FP8، فإنها تضغط الأرقام بكثافة ضعف، مما يقلل من حمل الذاكرة ويزيد من الإنتاجية الفعالة لأنوية الموتر. التحدي الرئيسي: شبكة الأرقام ذات أربعة بت متناثرة. مع الإعدادات غير الصحيحة، يتجاوز التدرج بسهولة حدودها — مما يؤدي إلى تباعد التدريب. عالجت NVIDIA وفريق MaxText هذا من خلال مخططات تحجيم مخصصة وتحجيم الخسارة الديناميكي.
كيفية عمل التدريب Mixed-Precision مع NVFP4
التدريب mixed-precision ليس نهجاً جديداً: أصبح FP8 و BF16 بالفعل معياراً صناعياً. يذهب NVFP4 خطوة أبعد، مما يسمح بأوزان بأربعة بت في عمليات الضرب المصفوفي الأكثر كثافة في الحوسبة مع الحفاظ على دقة أعلى حيث يكون ذلك مهماً فعلاً.
- يتم تطبيق NVFP4 على الأوزان والتفعيلات في عمليات GEMM
- يبقى BF16 أو FP32 للمراكمات والتطبيع
- توجه MaxText العمليات تلقائياً إلى الصيغة المناسبة
- تجمع JAX الرسم البياني الحاسوبي عبر XLA، محسّنة الأنوية لـ Blackwell
- النتيجة — نمو الإنتاجية مع استهلاك طاقة مماثل أو أقل
المكدس وما يجب تغييره في الكود
MaxText هو إطار عمل تدريب عالي الأداء مفتوح المصدر بناءً على JAX، طوره Google. تم إنشاؤه في الأصل لـ TPU، لكنه يتم تكييفه بنشاط لمجموعات GPU، والشراكة مع NVIDIA طبيعية هنا. أدرجت NVIDIA أنوية NVFP4 منخفضة المستوى كجزء من cuBLAS و cuDNN، واستقبل JAX/XLA الدعم لهذه العمليات من خلال محولات خاصة. لا يحتاج المطورون إلى إعادة كتابة كود التدريب يدوياً — يكفي تفعيل الأعلام الضرورية في إعدادات MaxText والتأكد من أن المجموعة بها شرائح Blackwell مثبتة (B100, B200, GB200).
"الدقة الرقمية هي أحد أهم المعاملات، لكن التدريب المسبق mixed-precision منخفض البت يصعب تنفيذه بشكل صحيح،" تلاحظ فريق NVIDIA
Developer Blog.
ما يعنيه هذا
بالنسبة للفرق المشاركة في التدريب المسبق لنماذج frontier، NVFP4 على Blackwell هو في الأساس تسريع مجاني: المكدس الموجود على JAX و MaxText يتطلب تغييرات إعدادات دنيا. على نطاق مئات وآلاف معالجات GPU، حتى المكاسب في الإنتاجية بنسبة 10–15% تقلل مباشرة الوقت حتى checkpoint والميزانية الحاسوبية الإجمالية. تنتقل السباق على كفاءة التدريب المسبق إلى مرحلة الصراع على الدقة الرقمية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.
أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع
سبع قصص مهمة فعلاً هذا الأسبوع، مختارة بعناية. بلا ضجيج ولا بيانات صحفية.
تم! تحقق من بريدك للتأكيد.