أطلقت NVIDIA Nemotron 3 Nano 4B — نموذجًا هجينًا مدمجًا للتشغيل على الأجهزة

أطلقت NVIDIA Nemotron 3 Nano 4B، وهو نموذج لغوي مدمج للتشغيل مباشرة على الأجهزة من دون الاعتماد على السحابة. وتوفّر المعمارية الهجينة Mamba-Transformer أقل استهلاك لذاكرة VRAM في فئته. وعلى Jetson Orin Nano، يصل أداء النموذج إلى 18 tokens/s — أي أسرع بمرتين من سلفه 9B. وهو متاح بصيغ BF16 وFP8 وGGUF لـ Llama.cpp.

Khamidun Zhemal

رصد الذكاء الاصطناعي · Hugging Face Blog

30 أبريل 2026· 2 د

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News

أطلقت NVIDIA Nemotron 3 Nano 4B — نموذجًا هجينًا مدمجًا للتشغيل على الأجهزة — المصدر: Hugging Face Blog. كولاج: Hamidun News.

◐ استمع للمقال

فتحت NVIDIA الوصول إلى Nemotron 3 Nano 4B — نموذج لغة مدمج يحتوي على 4 مليارات معامل، تم تطويره خصيصًا للنشر على الحافة على أجهزة Jetson و RTX GPU و DGX Spark. هذا هو أول نموذج 4B من NVIDIA مبني على بنية Mamba-Transformer الهجينة مع التركيز على استهلاك ذاكرة أدنى وسرعة استدلال عالية.

البنية الهجينة من الجيل الجديد

في جوهر Nemotron 3 Nano 4B توجد بنية من 42 طبقة: 21 كتلة Mamba، 4 كتل Attention و 17 كتلة MLP. هذه النسبة غير نمطية لنماذج اللغة من هذا الحجم — معظم المنافسين يتم بناؤهم حصرياً على محولات. تعالج طبقات Mamba التسلسلات الطويلة بتعقيد ذاكرة خطي وليس تربيعي — هذا هو المصدر الرئيسي للكفاءة. يتم وضع كتل Attention بشكل استراتيجي والحفاظ على الدقة حيث يكون الفهم العام للسياق حرجًا. مقارنة بنموذج الوالد Nemotron Nano 9B v2، تم تقليل بعد التضمين من 4،480 إلى 3،136، وعدد رؤوس Mamba من 128 إلى 96، وعدد الطبقات من 56 إلى 42. النتيجة: أصغر بصمة VRAM في فئة 4B عند الاختبار على RTX 4070 وأقل زمن تأخير Time-to-First-Token بشكل قياسي للتسلسلات المدخلة الطويلة.

أربع مراحل التدريب

Nemotron 3 Nano 4B ليس ببساطة نموذج 9B مقلص، بل هو نموذج مع خط أنابيب تدريب خاص به من أربع مراحل. الأول هو الضغط عبر Nemotron Elastic: البحث عن بنية عصبية (NAS) مع موجه مدرب حدد بالضبط أين يتم قص شبكة 9B. عمل الموجه على أربعة محاور: رؤوس Mamba، البعد المخفي، قنوات FFN وعمق النموذج. الثاني هو التقطير لاسترجاع الدقة:

السياق القصير (8K، 63B tokens): 70% بيانات ما بعد التدريب + 30% بيانات ما قبل التدريب
السياق الطويل (49K، 150B tokens): توسيع النافذة للمهام المعقدة للاستدلال

الثالث هو الضبط الدقيق الخاضع للإشراف (SFT): مرحلتان تغطي الرياضيات والكود والعلوم والدردشة ومهام الوكيل والأمان. الرابع هو التعلم المعزز ثلاثي المراحل عبر NeMo-RL: من اتباع التعليمات أحادية الدوران إلى متعددة الدوران مع مخرجات JSON/XML وأيضًا استدعاء وظيفة الأداة. نسبة بيانات reasoning/non-reasoning هي 50/50 مع شد متدرج لعقوبة KL.

الأرقام التي تهم

على Jetson Orin Nano مع GGUF بـ 4 بت (Q4_K_M)، يوفر النموذج 18 tokens/sec — أسرع بضعفين من Nemotron Nano 9B v2 على نفس الأجهزة. يحافظ التكميم FP8 عبر ModelOpt على 100% من استرجاع الدقة الوسيطة مع تحسن يصل إلى 1.8X في الكمون/الإنتاجية مقارنة بـ BF16.

"حقق التكميم FP8 استرجاع دقة وسيطة بنسبة 100% مع تحسن يصل إلى 1.8X في

الكمون/الإنتاجية مقارنة بـ BF16" — من التوثيق التقني لـ NVIDIA.

في معايير الأداء الرئيسية، يتصدر النموذج بين المنافسين في فئته:

IFBench و IFEval — اتباع التعليمات
Orak — ذكاء اللعبة: Super Mario, Darkest Dungeon, Stardew Valley
Tool-use — استدعاء الأداة وتجنب الهلوسات
TTFT — الحد الأدنى من الزمن الكامن على التسلسلات المدخلة الطويلة

النموذج متاح في ثلاث متغيرات: BF16 (الدقة الكاملة)، FP8 (محسّن لـ RTX و GPU الخادم)، GGUF Q4_K_M (لـ Jetson و Llama.cpp). يتم دعم محركات vLLM و TRT-LLM و Hugging Face Transformers.

ماذا يعني هذا

نموذج 4B بميزة سرعة 2X على 9B في Jetson يغير معادلة AI على الحافة: الروبوتات و IoT والعملاء المحليين و NPC الألعاب يحصلون على أداة من مستوى صناعي بدون أجهزة باهظة الثمن وبدون إرسال البيانات إلى السحابة. تسمح الأوزان المفتوحة بضبط النموذج لمجال محدد دون قيود الترخيص.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →