MarkTechPost→ المصدر

Nemotron-3-Nano-30B: NVIDIA علىучила 4-битные мعنдели думать пعن-فيзрعنمعлعنму

هل تتذكر الأوقات التي كنت بحاجة فيها إلى رف خوادم وميزانية دولة صغيرة لتشغيل نموذج لغة لائق؟ تلك الأيام تختفي بسرعة. بينما يحاول البعض ببساطة زيادة عدد…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
Nemotron-3-Nano-30B: NVIDIA علىучила 4-битные мعنдели думать пعن-فيзрعنمعлعنму
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

هل تتذكر الأوقات التي كنت بحاجة فيها إلى رف خوادم وميزانية دولة صغيرة لتشغيل نموذج لغة لائق؟ تلك الأيام تختفي بسرعة. بينما يحاول البعض ببساطة زيادة عدد المعاملات، قررت مهندسو NVIDIA الانخراط في "سحر الهندسة" وتحسين ما يوجد بالفعل. يظهر Nemotron-3-Nano-30B — نموذج بـ 30 مليار معامل يتمكن بطريقة ما من الحفاظ على حدة التفكير حتى بعد أن تم إجباره حرفياً على فقدان الوزن أربع مرات.

كانت مشكلة التكميم — عملية ضغط أوزان النموذج — تكمن دائماً في فقدان الدقة. عادة، عندما تحول نموذجاً من صيغة 16-بت (BF16) إلى صيغة 4-بت (NVFP4)، يبدأ بالتصرف مثل شخص بعد رضوض دماغية حادة: يخلط الحقائق ويفقد الروابط المنطقية. حلت NVIDIA هذه المشكلة باستخدام Quantization Aware Distillation (QAD). لتبسيط الأمر، هي عملية تدريب حيث يعمل نموذج "ذكي" بحجم كامل كمرشد لنسخة "مضغوطة"، مع معرفة مسبقة بأن الطالب سيضطر للعمل تحت قيود ذاكرة شديدة. في النهاية، أصبحت الفجوة في جودة الإجابات بين النسخة الثقيلة والخفيفة غير محسوسة تقريباً.

معمارياً، Nemotron-3-Nano-30B ليس مجرد محول آخر. إنه هجين يجمع بين Mamba2 و Transformer Mixture of Experts (MoE). تتفوق معمارية Mamba2 في التعامل مع السياقات الطويلة ومعالجة التسلسل الفعالة، بينما يسمح MoE بتنشيط أجزاء معينة فقط من الشبكة العصبية لمهمة محددة. يجعل هذا التركيب النموذج سريعاً بشكل لا يصدق في تنفيذ مهام الاستدلال (reasoning)، حيث تكون كل تفاصيل سلسلة الفكر مهمة.

لماذا تحتاج NVIDIA إلى هذا، بما يتجاوز الهيمنة الواضحة على السوق؟ الإجابة تكمن في الأجهزة. صيغة NVFP4 هي اللغة "الأصلية" لمعمارية شرائح Blackwell الجديدة. من خلال إطلاق مثل هذه النماذج، تنشئ الشركة نظاماً بيئياً مثالياً: يعمل برنامجها بكفاءة قصوى بالضبط على أجهزتها الجديدة. إنها إشارة دقيقة للصناعة: إذا كنت تريد استدلالاً حقيقياً سريعاً وذكياً بتكاليف كهربائية منخفضة، فقد حان الوقت لتحديث حظيرة GPU الخاصة بك.

بالنسبة للمطورين، هذا يعني وصول عصر ذكاء اصطناعي "الاستدلال" المقروض. الآن يمكن تشغيل نموذج بـ 30 مليار معامل على أجهزة أكثر تواضعاً دون التضحية بجودة الاستدلال المنطقي. يفتح هذا الأبواب أمام حلول محلية في الأعمال، حيث تكون خصوصية البيانات أكثر أهمية من الوصول إلى واجهات برمجية سحابية. تثبت NVIDIA مرة أخرى أن الأمر لا يتعلق فقط بعدد الخلايا العصبية التي لديك، بل بمدى فعالية تعبئتها في السيليكون.

الخلاصة: جعلت NVIDIA صيغة 4-بت معياراً للمهام الجادة، وحالياً سيتعين على منافسي AMD والشركات الناشئة مثل Groq إثبات أن حلولهم يمكن أن تكون فعالة بنفس القدر في ظروف الدقة المحدودة. هل يمكن لأي شخص آخر "ضغط" الذكاء بنفس الأناقة؟

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…