حزمت NVIDIA 3 نماذج في ملف واحد وجعلت التدريب أكثر كفاءة بـ360×
قدمت NVIDIA طريقة Star Elastic، وهي طريقة تدرب ثلاثة نماذج بأحجام مختلفة (30B و23B و12B من المعلمات) ضمن دورة واحدة من 160B token. توفير حوسبي: 360×. في مرحلة ا
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
قدمت NVIDIA Star Elastic — طريقة تحزم ثلاثة نماذج بأحجام مختلفة (30B و23B و12B معامل) في ملف أوزان واحد، مع تدريب جميعها من الصفر في تشغيل تدريب واحد بدلاً من ثلاثة تدريبات منفصلة.
توفير 360× في تكاليف التدريب
يعتمد Star Elastic على إطار عمل Nemotron Elastic ويُطبق على Nemotron Nano v3 — الجيل الجديد من نماذج NVIDIA. الميزة الأساسية: تتدرب جميع متغيرات النموذج الثلاثة في دورة واحدة من 160B رمز. للمقارنة: إذا دربت NVIDIA كل نموذج بشكل منفصل، ستحتاج إلى حوالي 360× أكثر من الحسابات. هذا توفير ضخم، خاصة مع الأخذ في الاعتبار تكلفة الحسابات على أجهزة الحاسوب العملاقة. يتطلب النهج التقليدي إما تدريب كل حجم بشكل منفصل (مكلف) أو قص الأوزان من نموذج أكبر (فقدان الدقة). يفعل Star Elastic شيئاً ثالثاً: يدمج النماذج المتداخلة في نقطة تفتيش واحدة مع الحفاظ الكامل على جودة كل حجم. يتم تخزين جميع النماذج الثلاثة في ملف واحد ويمكن استدعاؤها أثناء الاستدلال.
يصبح الاستدلال أسرع وأكثر دقة
لكن التدريب هو نصف المعركة فقط. يقدم Star Elastic elastic budget control — نهج استدلال جديد يعظم فوائد جميع النماذج الثلاثة في نفس الوقت. الفكرة بسيطة: أثناء مرحلة "التفكير" (عندما يعقل النموذج) يتم استخدام نموذج صغير 12B لتوفير الحسابات، بينما في مرحلة الإخراج النهائية — يتم استخدام النموذج الكامل 30B للحصول على الإجابة الأكثر دقة. النتائج مثيرة للإعجاب:
- 16% أعلى دقة مقارنة بـ budget control القياسي
- 1.9× أقل كمون — يجيب النموذج بسرعة أكبر
- المرونة: يمكن للمنظمات اختيار عمق التفكير حسب المهمة والميزانية
قارنه بـ budget control القياسي — إنه تقريباً نفس الشيء، لكن بدون خيار التبديل المرن بين الأحجام أثناء الاستدلال. هنا، التبديل مدمج في الخوارزمية نفسها ويعمل تلقائياً.
تناسب الأسرة بأكملها الآن على RTX
يسمح Star Elastic بتكميم النماذج بصيغة FP8 والصيغة الملكية NVFP4 (أكثر كفاءة من الصيغ القياسية). هذا يعني: يمكن للثالوث الكامل من النماذج أن يعيش على وحدة معالجة رسومات RTX واحدة، حتى على بطاقات الرسومات الاستهلاكية. في السابق، كان نموذج 30B يتطلب معدات احترافية مثل H100، والتي لا يمكن الوصول إليها من قبل العديد من الشركات. الآن يمكن للمهندسين تجربة نماذج قوية على أجهزة الكمبيوتر الخاصة بهم.
"هذا يضفي الديمقراطية على الوصول إلى نماذج التفكير", — بهذا الروح،
يؤكد مطورو NVIDIA.
ماذا يعني هذا
لا تحتاج المنظمات إلى الاختيار بين السرعة (نموذج صغير) والجودة (نموذج كبير) في وقت التدريب. تدرب مرة واحدة واختر التنازل أثناء الاستدلال — بمرونة، بدون إعادة تدريب. هذا يقلل التكاليف ليس فقط للتدريب، بل أيضاً لخوادم الاستدلال. عملياً: تدفع أقل لساعات GPU وتحصل على مرونة أكثر في الإنتاج.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.