أطلقت NVIDIA Nemotron 3 Nano 4B — نموذجًا هجينًا مدمجًا للتشغيل على الأجهزة
أطلقت NVIDIA Nemotron 3 Nano 4B، وهو نموذج لغوي مدمج للتشغيل مباشرة على الأجهزة من دون الاعتماد على السحابة. وتوفّر المعمارية الهجينة Mamba-Transformer أقل…
معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
فتحت NVIDIA الوصول إلى Nemotron 3 Nano 4B — نموذج لغة مدمج يحتوي على 4 مليارات معامل، تم تطويره خصيصًا للنشر على الحافة على أجهزة Jetson و RTX GPU و DGX Spark. هذا هو أول نموذج 4B من NVIDIA مبني على بنية Mamba-Transformer الهجينة مع التركيز على استهلاك ذاكرة أدنى وسرعة استدلال عالية.
البنية الهجينة من الجيل الجديد
في جوهر Nemotron 3 Nano 4B توجد بنية من 42 طبقة: 21 كتلة Mamba، 4 كتل Attention و 17 كتلة MLP. هذه النسبة غير نمطية لنماذج اللغة من هذا الحجم — معظم المنافسين يتم بناؤهم حصرياً على محولات. تعالج طبقات Mamba التسلسلات الطويلة بتعقيد ذاكرة خطي وليس تربيعي — هذا هو المصدر الرئيسي للكفاءة. يتم وضع كتل Attention بشكل استراتيجي والحفاظ على الدقة حيث يكون الفهم العام للسياق حرجًا. مقارنة بنموذج الوالد Nemotron Nano 9B v2، تم تقليل بعد التضمين من 4،480 إلى 3،136، وعدد رؤوس Mamba من 128 إلى 96، وعدد الطبقات من 56 إلى 42. النتيجة: أصغر بصمة VRAM في فئة 4B عند الاختبار على RTX 4070 وأقل زمن تأخير Time-to-First-Token بشكل قياسي للتسلسلات المدخلة الطويلة.
أربع مراحل التدريب
Nemotron 3 Nano 4B ليس ببساطة نموذج 9B مقلص، بل هو نموذج مع خط أنابيب تدريب خاص به من أربع مراحل. الأول هو الضغط عبر Nemotron Elastic: البحث عن بنية عصبية (NAS) مع موجه مدرب حدد بالضبط أين يتم قص شبكة 9B. عمل الموجه على أربعة محاور: رؤوس Mamba، البعد المخفي، قنوات FFN وعمق النموذج. الثاني هو التقطير لاسترجاع الدقة:
- السياق القصير (8K، 63B tokens): 70% بيانات ما بعد التدريب + 30% بيانات ما قبل التدريب
- السياق الطويل (49K، 150B tokens): توسيع النافذة للمهام المعقدة للاستدلال
الثالث هو الضبط الدقيق الخاضع للإشراف (SFT): مرحلتان تغطي الرياضيات والكود والعلوم والدردشة ومهام الوكيل والأمان. الرابع هو التعلم المعزز ثلاثي المراحل عبر NeMo-RL: من اتباع التعليمات أحادية الدوران إلى متعددة الدوران مع مخرجات JSON/XML وأيضًا استدعاء وظيفة الأداة. نسبة بيانات reasoning/non-reasoning هي 50/50 مع شد متدرج لعقوبة KL.
الأرقام التي تهم
على Jetson Orin Nano مع GGUF بـ 4 بت (Q4_K_M)، يوفر النموذج 18 tokens/sec — أسرع بضعفين من Nemotron Nano 9B v2 على نفس الأجهزة. يحافظ التكميم FP8 عبر ModelOpt على 100% من استرجاع الدقة الوسيطة مع تحسن يصل إلى 1.8X في الكمون/الإنتاجية مقارنة بـ BF16.
"حقق التكميم FP8 استرجاع دقة وسيطة بنسبة 100% مع تحسن يصل إلى 1.8X في
الكمون/الإنتاجية مقارنة بـ BF16" — من التوثيق التقني لـ NVIDIA.
في معايير الأداء الرئيسية، يتصدر النموذج بين المنافسين في فئته:
- IFBench و IFEval — اتباع التعليمات
- Orak — ذكاء اللعبة: Super Mario, Darkest Dungeon, Stardew Valley
- Tool-use — استدعاء الأداة وتجنب الهلوسات
- TTFT — الحد الأدنى من الزمن الكامن على التسلسلات المدخلة الطويلة
النموذج متاح في ثلاث متغيرات: BF16 (الدقة الكاملة)، FP8 (محسّن لـ RTX و GPU الخادم)، GGUF Q4_K_M (لـ Jetson و Llama.cpp). يتم دعم محركات vLLM و TRT-LLM و Hugging Face Transformers.
ماذا يعني هذا
نموذج 4B بميزة سرعة 2X على 9B في Jetson يغير معادلة AI على الحافة: الروبوتات و IoT والعملاء المحليين و NPC الألعاب يحصلون على أداة من مستوى صناعي بدون أجهزة باهظة الثمن وبدون إرسال البيانات إلى السحابة. تسمح الأوزان المفتوحة بضبط النموذج لمجال محدد دون قيود الترخيص.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.