Habr AI→ المصدر

NVIDIA QAD: كيفية ضغط النموذج إلى 4 بت دون فقدان العقل

أي شخص حاول تشغيل Llama-3 70B على بطاقة رسومات منزلية يعرف ذلك الشعور المرّ بالتوازن. إما أن تنفق ثروة على H100، أو تضغط النموذج إلى درجة يبدأ فيها بالالتباس…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
NVIDIA QAD: كيفية ضغط النموذج إلى 4 بت دون فقدان العقل
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

أي شخص حاول تشغيل Llama-3 70B على بطاقة رسومات منزلية يعرف ذلك الشعور المرّ بالتوازن. إما أن تنفق ثروة على H100، أو تضغط النموذج إلى درجة يبدأ فيها بالالتباس في الحسابات الأساسية. كانت مشكلة التكميم 4 بت دائماً أنها تقطع بلا رحمة الدقائق في الأوزان المهمة للمنطق المعقد. قررت NVIDIA أن الوقت حان لإنهاء هذا السيرك وأطلقت طريقة QAD، التي تغير قواعد اللعبة في مجال الكفاءة.

لفهم سبب أهمية هذا الآن، عليك النظر إلى كيفية تدريب النماذج. تمر نماذج اللغة الكبيرة الحديثة بمرحلة RLHF—التعلم المعزز من تعليقات الإنسان. تجعل هذه العملية الإجابات أكثر متعة وأماناً، لكنها تجعل توزيع الأوزان في النموذج هشاً للغاية. عندما تطبق التكميم القياسي (QAT) على نموذج "مصقول" بهذه الطريقة، فإنه ينهار حرفياً. تعاني الرياضيات وكتابة الكود أولاً، لأنها تتطلب دقة مطلقة، وليس فقط التنبؤ بالكلمة التالية المحتملة.

تتعامل طريقة QAD (Quantization-Aware Distillation) مع المهمة بشكل مختلف. بدلاً من تقريب الأرقام والأمل في الأفضل، تستخدم NVIDIA التقطير. في هذه العملية، يوجه نموذج "معلم" بحجم كامل طالبته المضغوطة 4 بت. يكمن سر النجاح في استخدام تباعد KL—مقياس يجبر النموذج المضغوط على نسخ منطق توزيع الاحتمالات للأصل بدقة. يسمح هذا بتقليل الضوضاء التي تنشأ حتماً عند الانتقال من أرقام 16 بت إلى 4 بت.

الشيء الأكثر سخرية وسروراً في هذه القصة هو أن QAD يعمل حتى على البيانات العشوائية أو الاصطناعية. لا تحتاج إلى تنزيل تيرابايتات من مجموعة التدريب الأصلية لمعايرة النسخة المضغوطة. هذا يزيل صداعاً ضخماً عن المطورين الذين ليس لديهم إمكانية الوصول إلى مجموعات البيانات المغلقة للمختبرات الكبرى. أخيراً حصلنا على أداة تسمح بأخذ الأوزان الضخمة وحزمها في تنسيق مضغوط دون تحويل النموذج إلى مساعد مفقوداً للعقل.

ماذا يعني هذا لنا عملياً؟ إذا كان سابقاً العمل الجيد مع نماذج بـ 49B أو 70B يتطلب بطاقتين أو أربع بطاقات من مستوى RTX 3090/4090، فالآن ينخفض حاجز الدخول بشكل ملحوظ. جودة الإجابات في تنفيذ 4 بت عبر QAD غير متمايزة عملياً عن الأصل في اختبارات المنطق والبرمجة. هذا طريق مباشر لجعل المساعدات الذكية المحلية حقيقية ذكية، بدلاً من مجرد محاكاة الكلام البشري.

تثبت NVIDIA مرة أخرى أن البرمجيات والخوارزميات مهمة بقدر أهمية عدد الترانزستورات في الرقاقة. بينما يحاول المنافسون اللحاق بالقوة الخام للأجهزة، يبني فريق "الأخضر" نظاماً بيئياً حيث تصبح بطاقاتهم أكثر كفاءة بشكل كبير من خلال الضغط الذكي. هذا ليس مجرد تحسين، إنها معيار جديد لصناعة حيث حجم النموذج لم يعد حكم إعدام للميزانية.

الأساسي: يجعل QAD نماذج 4 بت مناسبة للعمل الجاد، وليس فقط الاختبارات. هل سنتمكن قريباً من تشغيل أداء بمستوى GPT-4 على بطاقة رسومات منزلية واحدة؟

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…