Hugging Face Blog→ المصدر

NVIDIA Nemotron: نماذج الانتشار توليد النص أسرع 6 مرات

يولد Nemotron 32 رمزاً في آن واحد بدلاً من واحد، باستخدام الانتشار بدلاً من الانحدار التلقائي. يدعم النموذج ثلاثة أوضاع عمل على checkpoint واحد: الانحدار…

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
NVIDIA Nemotron: نماذج الانتشار توليد النص أسرع 6 مرات
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت NVIDIA نموذج Nemotron-Labs Diffusion — أول نماذج لغوية توليد نصوص بالتوازي بدلاً من التسلسلي. يغير هذا بشكل جذري نهج سرعة توليد النصوص وكفاءة استخدام GPU.

لماذا النماذج العادية بطيئة

جميع نماذج اللغة الحديثة تعمل بوضع الانحدار التلقائي: توليد رمز واحد، ثم التالي، ثم آخر. هذا يعني أن حتى معالجات GPU قوية تقضي وقتاً في انتظار كل خطوة. عند توليد جملة من 100 رمز، يجب على النموذج تنفيذ 100 تمرير، ومع كل مرة تفعيل الرسم البياني للشبكة العصبية بالكامل. المعالجات الحديثة (خاصة B200) تقضي وقتاً أطول في الوصول إلى الذاكرة مقابل الحسابات الفعلية — وهذا هو الاختناق.

الانتشار بدلاً من الانحدار التلقائي

يحل Nemotron هذه المشكلة من خلال نماذج الانتشار. الفكرة بسيطة: توليد الكثير من الرموز فوراً، ثم تحسينها. النموذج يدعم ثلاثة أوضاع عمل على checkpoint واحد:

  • الانحدار التلقائي — الوضع العادي، كلمة بكلمة، للتوافقية
  • FastDiffuser — توليد كتل بـ 32 رمزاً في المرة وتحسينها بشكل متكرر عبر عدة تمريرات
  • LinearSpec — توليد صياغة انتشارية زائد التحقق من الانحدار التلقائي، يعطي تسريع 6× على B200

يختار المطور ببساطة الوضع عند التشغيل — لا يتغير كود التطبيق.

أرقام الأداء

Nemotron 8B مقابل البدائل:

  • على GPU B200 في وضع التنبؤ الذاتي يحقق ~865 رمزاً في الثانية
  • 2.6× رموز أكثر في تمرير واحد عبر الشبكة العصبية
  • +1.2% دقة مقابل Qwen3 8B
  • في أسرع وضع توليد 6.4 مرات أكثر رموز من النماذج العادية

يمكن تقليل عدد التمريرات المحسّنة إذا كانت هناك حاجة لحسابات أقل — يدير المهندس المقارنة بين الجودة والسرعة.

ثلاثة أحجام وأوزان جاهزة

أطلقت NVIDIA نماذج بأحجام 3B و8B و14B من المعاملات. تأتي كل واحدة بمتغيرين: أساسي (مدرب على 1.3 تريليون رمز) وتعليماتي للدردشة. كل الكود التدريبي والتكامل عبر SGLang (إطار عمل استنتاج شهير) مفتوح بالفعل على GitHub.

ماذا يعني هذا

نماذج الانتشار لم تعد تجربة في المختبرات — تدخل الإنتاج. للمطورين هذا يعني أنه يمكن أخذ نموذج واحد والتبديل بين الأوضاع حسب السرعة: بطيء لكن دقيق للمهام الحرجة؛ سريع للعمليات الجماعية. لمزودي الخدمات — إمكانية تقليل تكلفة الاستنتاج وتقليل التأخير في الرد على المستخدمين.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…