تم تشغيل Nvidia Nemotron-Cascade-2 منزليًا على GeForce RTX 3090 بسرعة تصل إلى 150 tokens/s
نجح تشغيل Nemotron-Cascade-2-30B-AWQ محليًا على إعداد منزلي مع GeForce RTX 3090، مع تحقيق 120–150 tokens/s، وحتى 210+ مع reasoning. وفي الاختبارات، تعامل…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أظهر أحد عشاق نماذج اللغات الكبيرة المحلية أن Nemotron-Cascade-2 بـ 30 مليار معاملة يمكن استخدامه في المنزل على بطاقة GeForce RTX 3090. في إعداده، أنتجت النموذج 120–150 رمزًا في الثانية وتعاملت ليس فقط مع البرمجة بل أيضًا مع مهام الفيزياء والأحياء وسيناريوهات وكلاء الويب.
لماذا اختاروا Nemotron
كان المؤلف يبحث عن أكثر من مجرد نموذج محلي لتجربته — لقد أراد مساعدًا دائمًا للعمل اليومي. كانت المتطلبات عملية: سرعة استجابة عالية، سياق طويل مستقر، ومنطق يمكن الوثوق به دون إعادة التحقق من كل خطوة. كان الإعداد المنزلي لهذا نموذجيًا جدًا لهاوٍ متقدم: كمبيوتر شخصي صغير بـ 64 غيغابايت من ذاكرة الوصول العشوائي، Windows 11، WSL2، وبطاقة GeForce RTX 3090 خارجية بـ 24 غيغابايت.
في هذا السياق، تبين أن Nemotron-Cascade-2-30B-A3B-AWQ كان حلاً وسطيًا يعمل فعلاً. ويفسر الاختيار بسبب معمارية Mamba + MoE: جزء يساعد في معالجة الطلبات الطويلة بشكل أسرع، والآخر يحافظ على سرعة توليد عالية. تم تشغيل النموذج عبر vLLM، مما سمح باستخدام FP8 لذاكرة KV وسحب قدر ملحوظ من بطاقة رسومية منزلية أكثر من السيناريوهات المحلية البسيطة.
- Qwen 3.5-35B لم يتسع في 24 غيغابايت من الذاكرة بهامش سياق مريح
- أثبتت متغيرات GGUF عبر Llama.cpp و LM Studio أنها أبطأ بشكل ملحوظ
- لم يتمكن من العثور على NIM في تكوين AWQ مناسب
- أعطى Nemotron-Cascade-2 في الشكل الكمي أفضل توازن بين السرعة والجودة
ما أظهرته الاختبارات
للتحقق من النموذج، تم تشغيله عبر سلسلة من المهام في AnythingLLM مع vLLM المتصل. لم تكن المجموعة معيار اختبار اصطناعي بل خليط من سيناريوهات العالم الحقيقي: حساب في الديناميكا الحرارية، مهمة في الأحياء حول اتجاه سلاسل الحمض النووي، كتابة دالة numpy لحساب زوايا الحيود، وطلبات وكلاء الويب عبر Playwright. يوضح هذا الخليط جيدًا ما إذا كان نموذج اللغة المحلي مناسبًا للعمل اليومي بدلاً من مجرد ردود دردشة قصيرة.
أظهر Nemotron-Cascade-2 أفضل أدائه حيث احتاج إلى الحفاظ على سلسلة استدلال بدلاً من مجرد تذكر حقيقة. في مسألة الثلج، فصلت النموذج بشكل صحيح بين التسخين والذوبان والتسخين اللاحق للماء، وفي الاختبار البيولوجي لاحظت خطأ في المنطق الوسيط بنفسها وصححته أثناء الإجابة. في مهمة Python، لم تلجأ إلى حلقات متداخلة بطيئة بل اقترحت فورًا متجهة عبر numpy وأخذت في الاعتبار أخطاء التقريب.
حتى السيناريوهات مع وكلاء الويب عملت، وإن كانت أبطأ بشكل ملحوظ من Q&A العادي.
حيث ظهرت القيود
تبين أن المشكلة التقنية الرئيسية ليست الذاكرة أو السرعة بل نمط الاستدلال. عند محاولة تعطيل الاستدلال الداخلي من أجل إخراج أنظف، فقدت النموذج جودة بشكل حاد في المهام المعقدة. كان هذا واضحًا بشكل خاص حيث احتاجت إلى الحفاظ على عدة خطوات منطقية في نفس الوقت، على سبيل المثال في الأحياء ومهام الوكلاء.
"لا تفعل هذا. النموذج يصبح 'أحمق' على الفور."
نتيجة لذلك، كان الحل الأمثل ليس قطع كتل التفكير بل تحليلها بشكل صحيح. قام المؤلف أولاً بتجميع وكيل Python بسيط لهذا، ثم وجد خيارًا أنظف: المعامل `--reasoning-parser deepseek_r1` في vLLM. بعد ذلك، لم تعد الطبقة الإضافية مطلوبة. تبدو النتيجة النهائية للإعداد المنزلي قوية: 120–150 رمزًا في الثانية في التوليد وحتى 210+ رموز في الثانية مع الأخذ في الاعتبار الاستدلال. في الوقت نفسه، محاولة تسريع السياق بشكل أكبر عبر `--enforce-eager` لها التأثير المعاكس — تنخفض السرعة بحيث يفقد هذا الوضع معناه.
ما يعنيه هذا
توضح الحالة أن نماذج 30B المحلية لم تعد لعبة لهواة يمتلكون بطاقات رسومية قليلة. إذا اخترت بشكل صحيح المعمارية والكمية ومكدس التشغيل، فإن بطاقة RTX 3090 واحدة قادرة بالفعل على توفير أداة عملية للأكواد وRAG والمهام العلمية والسيناريوهات البسيطة للوكلاء دون اشتراك سحابي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.