NVIDIA تسرّع التدريب المسبق لنماذج LLM: NVFP4 على Blackwell مع JAX وMaxText

نشرت NVIDIA دليلاً تقنياً حول التدريب المسبق لنماذج LLM على شرائح Blackwell: تنسيق NVFP4، مع JAX وMaxText، يقلّص زمن التدريب وتكاليف الحوسبة. وكل نقطة مئوية…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · NVIDIA Developer Blog

30 يونيو 2026· 2 د

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News

NVIDIA تسرّع التدريب المسبق لنماذج LLM: NVFP4 على Blackwell مع JAX وMaxText — المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.

◐ استمع للمقال

يواجه التدريب المسبق لنماذج اللغة الكبيرة (frontier LLMs) حدود الإنتاجية في الأنظمة الحاسوبية. أظهرت NVIDIA كيف يسمح الجمع بين JAX و MaxText والصيغة الجديدة NVFP4 على شرائح Blackwell بتسريع هذه العملية بشكل كبير دون فقدان الجودة.

لماذا تكون كل نسبة مئوية مهمة

عندما يتم التدريب على تريليونات الرموز عبر آلاف المسرعات، فإن توفير حتى نسبة مئوية واحدة من الوقت في كل خطوة يترجم إلى عدة أيام من الوقت الفعلي. على نطاق التدريب المسبق للنماذج الحدودية، هذا يعني تحويلاً مباشراً إلى ملايين الدولارات من نفقات الحوسبة. NVFP4 — صيغة النقطة العائمة بأربعة بت التي ظهرت لأول مرة في معمارية Blackwell — أصبحت إحدى الأدوات الرئيسية لتسريع العمليات المصفوفية. مقارنة بـ FP8، فإنها تضغط الأرقام بكثافة ضعف، مما يقلل من حمل الذاكرة ويزيد من الإنتاجية الفعالة لأنوية الموتر. التحدي الرئيسي: شبكة الأرقام ذات أربعة بت متناثرة. مع الإعدادات غير الصحيحة، يتجاوز التدرج بسهولة حدودها — مما يؤدي إلى تباعد التدريب. عالجت NVIDIA وفريق MaxText هذا من خلال مخططات تحجيم مخصصة وتحجيم الخسارة الديناميكي.

كيفية عمل التدريب Mixed-Precision مع NVFP4

التدريب mixed-precision ليس نهجاً جديداً: أصبح FP8 و BF16 بالفعل معياراً صناعياً. يذهب NVFP4 خطوة أبعد، مما يسمح بأوزان بأربعة بت في عمليات الضرب المصفوفي الأكثر كثافة في الحوسبة مع الحفاظ على دقة أعلى حيث يكون ذلك مهماً فعلاً.

يتم تطبيق NVFP4 على الأوزان والتفعيلات في عمليات GEMM
يبقى BF16 أو FP32 للمراكمات والتطبيع
توجه MaxText العمليات تلقائياً إلى الصيغة المناسبة
تجمع JAX الرسم البياني الحاسوبي عبر XLA، محسّنة الأنوية لـ Blackwell
النتيجة — نمو الإنتاجية مع استهلاك طاقة مماثل أو أقل

المكدس وما يجب تغييره في الكود

MaxText هو إطار عمل تدريب عالي الأداء مفتوح المصدر بناءً على JAX، طوره Google. تم إنشاؤه في الأصل لـ TPU، لكنه يتم تكييفه بنشاط لمجموعات GPU، والشراكة مع NVIDIA طبيعية هنا. أدرجت NVIDIA أنوية NVFP4 منخفضة المستوى كجزء من cuBLAS و cuDNN، واستقبل JAX/XLA الدعم لهذه العمليات من خلال محولات خاصة. لا يحتاج المطورون إلى إعادة كتابة كود التدريب يدوياً — يكفي تفعيل الأعلام الضرورية في إعدادات MaxText والتأكد من أن المجموعة بها شرائح Blackwell مثبتة (B100, B200, GB200).

"الدقة الرقمية هي أحد أهم المعاملات، لكن التدريب المسبق mixed-precision منخفض البت يصعب تنفيذه بشكل صحيح،" تلاحظ فريق NVIDIA

Developer Blog.

ما يعنيه هذا

بالنسبة للفرق المشاركة في التدريب المسبق لنماذج frontier، NVFP4 على Blackwell هو في الأساس تسريع مجاني: المكدس الموجود على JAX و MaxText يتطلب تغييرات إعدادات دنيا. على نطاق مئات وآلاف معالجات GPU، حتى المكاسب في الإنتاجية بنسبة 10–15% تقلل مباشرة الوقت حتى checkpoint والميزانية الحاسوبية الإجمالية. تنتقل السباق على كفاءة التدريب المسبق إلى مرحلة الصراع على الدقة الرقمية.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية