Habr AI→ المصدر

DeepSeek-V4-Pro مضغوط 50 مرة والآن يعمل على T4 مجاني في Kaggle

اختبر الباحثون تشغيل DeepSeek-V4-Pro بـ 1.6 تريليون معامل بدون مجموعة خوادم مكلفة: قام مؤلف المشروع بضغط الأوزان عبر SVD ومعالجة الأجزاء بتسلسل والحفاظ على…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
DeepSeek-V4-Pro مضغوط 50 مرة والآن يعمل على T4 مجاني في Kaggle
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

يُظهر التجربة مع DeepSeek-V4-Pro أن حتى نموذج فئة 1.6 تريليون معامل يمكن إحضاره إلى حالة عملية دون مجموعة H100، إذا تخليتم عن فكرة تشغيله بصيغته الأصلية. بدلاً من الاستدلال الكامل، جمع مؤلف المشروع تقريباً عدوانياً للغاية: ضغط الأوزان من خلال تحليل الرتبة المنخفضة، معالجة الأجزاء الضخمة من خلال المعالجة المتدفقة، وتكييف المعمارية يدويًا مع الأدوات الموجودة.

النتيجة بعيدة عن الجاهزية للإنتاج، لكن مجرد حقيقة التشغيل على بطاقة NVIDIA T4 مجانية في Kaggle يبدو كعرض قوي لمدى أهمية الرياضيات والعبقرية الهندسية في الوقت الحالي. يناقش الوصف الأصلي DeepSeek-V4-Pro، التي يسميها المؤلف نموذج MoE بـ 1.6 تريليون معامل مع أوزان تتجاوز 800 جيجابايت.

بالنسبة لهذه فئة من الأنظمة، عادةً ما تكون هناك حاجة إلى بنية تحتية مختلفة تماماً: عدة H100s، كميات كبيرة من ذاكرة الفيديو، قنوات سريعة بين العُقد، ومساحة قرص محلي كافية. في ضوء ذلك، يبدو اختيار نسخة Kaggle مجانية مع T4 بذاكرة 16 جيجابايت VRAM وحوالي 50 جيجابايت من القرص لا كمحاولة لتكرار النشر القياسي، بل كتجربة على حافة الممكن. بيان المشكلة نفسه مهم أيضاً: عدم الحفاظ على النموذج بصيغته الأصلية، بل التحقق من مقدار البنية المفيدة التي يمكن الاحتفاظ بها بعد الضغط الجذري.

الخطوة الأساسية في المشروع هي التخلي عن التكمية القياسية بـ 4 بت لصالح تحويل SVD، أي تحليل الرتبة المنخفضة لمصفوفات الأوزان. وفقاً لوصف المؤلف، أعطت رتبة 64 حوالي 50 ضغطاً مرات. يحافظ هذا المخطط على الاعتماديات الرئيسية بين المعاملات، لكنه يرفع الكثير من التفاصيل ومعها جزء من الجودة.

بالنسبة لنموذج عملاق، هذا تبادل قاسٍ: تنخفض الدقة، لكن هناك فرصة لملاءمة النظام مع الأجهزة المتاحة. في الأساس، هذا لم يعد النموذج الأصلي بالمعنى الكامل، بل هيكله الرياضي، الذي لا يزال قادراً على الحفاظ على جزء من السياق والاتصالات الترابطية. العنصر الثاني المهم هو العمل مع الأوزان بطريقة MLOps شبه طارئة.

بدلاً من تخزين المجموعة الكاملة للمعاملات محلياً، قام المؤلف بمعالجة الأجزاء بالتسلسل عبر safe_open: تنزيل ملف واحد، استخراج الموتر المطلوب، ضغطه في ذاكرة الوصول العشوائي، إرسال النتيجة إلى المستودع، وحذف الذاكرة المؤقتة بالكامل قبل الخطوة التالية. هذا جعل من الممكن الالتفاف على قيد القرص مجموعة من الأوزان التي في سيناريو عادي ببساطة لن تناسب الآلة المجانية. يتم التأكيد بشكل منفصل على أن استهلاك ذاكرة الوصول العشوائي لم يتجاوز أبداً 4 جيجابايت.

هذه تفصيلة مهمة، لأنك في مثل هذه المهام لا تصطدم فقط بقيود VRAM بل أيضاً بخدمات الملفات، عندما لا يمكن للنموذج فعلياً أن يتم فك ضغطه بدون حيل وسيطة. الطبقة الثالثة من البناء هي سرقة هوية معمارية. مكتبة transformers، وفقاً للمؤلف، لم تكن تدعم بعد DeepSeek-V4، لذا كان يجب إخفاء التكوين كـ DeepSeek-V2 وكان يجب تصحيح توجيه MoE بشكل منفصل من خلال monkey patching.

من وجهة نظر هندسية، هذه تقنية هشة: تعتمد على إصدار المكتبات وصيغة التكوين وتصميم موجه الخبراء. لكن هذه الخطوة بالذات توضح أن بعض القيود حول النماذج الكبيرة ترتبط ليس فقط بالأجهزة، بل أيضاً بتوافقية الأدوات. إذا كانت المكدس لا تعرف بعد المعمارية الجديدة، فعادةً ما يتعين على الباحثين أولاً تكييف الإطار مع النموذج، ثم التعامل مع جودة الإخراج.

كانت النتيجة نسخة من النموذج التي، وفقاً للمؤلف، تناسب الذاكرة بـ T4 واحد ويمكنها الحفاظ على السياق، لكنها تتدهور بشكل ملحوظ في الجودة. من بين الآثار الجانبية الهلوسات ومزج اللغة الروسية والإنجليزية والصينية في رد واحد. هذا يجعل النظام مرشحاً سيئاً لسيناريوهات الإنتاج الموثوقة حيث تهم الدقة والاستقرار والقدرة على التنبؤ.

لكن كإثبات مفهوم، المشروع يعمل: يُظهر أن حتى النماذج العملاقة open-weight يمكن ليس فقط أن تُناقش من حيث مراكز البيانات، بل أيضاً تقسيمها إلى تكوينات أكثر إمكانية، وإن كانت مخفضة بشدة. الخلاصة الرئيسية هنا ليست أن T4 أصبحت فجأة بديلاً لمجموعات GPU الحديثة. بل على العكس: توضح التجربة بوضوح تكلفة هذه التنازلات والحد الذي يتجاوزه تشغيل النموذج لم يعد استدلال كامل، بل إعادة بناء على مستوى البحث.

لكن هذه المشاريع بالذات هي ما يدفع ممارسة الضغط والاستدلال التقريبي و MLOps في المتناول إلى الأمام. كلما زاد ظهور هذه الحلول البديلة، كلما انخفض مستوى الحاجز أمام أولئك الذين يرغبون في التجربة مع نماذج كبيرة دون ميزانية الشركات.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…