MarkTechPost→ المصدر

كيف تضغط نموذجًا لغويًا بمقدار 3x: دليل حول FP8 وGPTQ وSmoothQuant

يوضح دليل جديد كيفية ضغط نموذج لغوي باستخدام llmcompressor. واختُبرت ثلاث طرق للتكميم: FP8 (سريع، دقة منخفضة)، GPTQ (دقة عالية)، SmoothQuant (توازن). وتشمل النت

كيف تضغط نموذجًا لغويًا بمقدار 3x: دليل حول FP8 وGPTQ وSmoothQuant
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أداة مفتوحة المصدر llmcompressor تسمح بضغط نماذج اللغات المسبقة التدريب إلى حجم مناسب للاستخدام في الإنتاج. يعرض دليل عملي جديد كيفية تطبيق التكميم على النماذج المعدلة بالفعل بالتعليمات واختيار الطريقة الأمثل لسيناريوك.

ما هو تكميم النموذج

التكميم هو تقليل دقة الأرقام التي يعمل معها النموذج. بدلاً من الأرقام القياسية ذات 16 بت (FP16) أو 32 بت (FP32)، يمكن للنموذج أن يعمل مع قيم 8 بت (int8) أو حتى 4 بت. هذا يجعل النموذج أصغر وأسرع، لكن قد يؤثر سلباً على جودة الإجابات. هناك منهجان: التكميم الواعي بالتدريب (QAT) والتكميم ما بعد التدريب (PTQ). الأول أكثر دقة لكنه يتطلب إعادة تدريب النموذج على البيانات. الثاني أسرع، يُطبق ببساطة على نموذج جاهز قبل الاستخدام مباشرة، دون الحاجة إلى إعادة تدريب.

يتخصص llmcompressor في PTQ — التكميم ما بعد التدريب. هذا يسمح بتطبيق الضغط خلال ساعات بدلاً من أسابيع إعادة التدريب. يقوم المهندس بتحميل نموذج جاهز في llmcompressor، واختيار طريقة تكميم، وفي غضون ساعات قليلة يحصل على نسخة مضغوطة جاهزة للاستخدام على أجهزة أضعف.

ثلاث طرق تكميم في المقارنة

يختبر الدليل بدقة ثلاثة أساليب مختلفة على نفس النموذج الأساسي:

  • التكميم الديناميكي FP8 — الأبسط، يعمل في دقائق، لا يتطلب معايرة على بيانات إضافية. يتم تحويل جميع الأرقام (الأوزان والتفعيلات) إلى صيغة 8 بت. العيب: أسوأ دقة، قد يفقد ما يصل إلى 5% في جودة الإجابة
  • GPTQ (W4A16) — يضغط فقط أوزان النموذج إلى 4 بت، تبقى التفعيلات في 16 بت الأصلية. يتطلب معايرة صغيرة على عينة بيانات. توازن جيد بين السرعة والجودة
  • SmoothQuant مع GPTQ (W8A8) — الأكثر دقة من الثلاثة، الأوزان والتفعيلات في 8 بت، لكن مع توزيع ذكي للقيم. أبطأ من الآخرين، يتطلب المزيد من البيانات للمعايرة، لكن النتائج تبقى قريبة من الأصلية بخسارة أقل من 1%

تم اختبار كل طريقة على مهمة حقيقية — توليد النصوص بناءً على طلبات المستخدم. قاسوا حجم الملف على القرص، سرعة التوليد (الكمون والإنتاجية)، و"الحيرة" في النموذج (perplexity) — مقياس لكيفية خطأ النموذج على بيانات الاختبار.

نتائج المقاييس

يمكن تقليل حجم القرص بمعامل 3-4 مرات. يشغل النموذج ذو 16 بت مساحة أكبر بكثير من نسخة 8 بت من نفس النموذج. تزداد سرعة الاستدلال بما يتناسب مع الضغط، خاصة ملحوظة على الأجهزة المحمولة حيث تكون البطارية حاسمة. تعتمد الدقة على الطريقة المختارة. يفقد FP8 ما يصل إلى 5% في جودة الإجابة، SmoothQuant — أقل من 1%. بالنسبة لسيناريوهات الإنتاج حيث كل نسبة مئوية من الدقة حاسمة، يتم اختيار SmoothQuant، حتى لو كان أبطأ. لتوليد الأفكار والمسودات والمهام المساعدة، يناسب FP8، وتوفير الحسابات يبرر فقدان الجودة.

الخلاصة العملية من الدليل: إذا كنت بحاجة إلى السرعة والتكاليف المنخفضة — اختر FP8. إذا كانت الدقة حاسمة وأنت مستعد لقضاء المزيد من الوقت على الاستدلال — SmoothQuant.

من يحتاج هذا

هذه الأداة والنهج مفيدة للشركات التي تريد تشغيل نموذج لغتهم في الإنتاج:

— على الحافة (على جهاز المستخدم) دون إرسال البيانات إلى السحابة — في سحابة خاصة بموارد وميزانية محدودة — بالحجم: كلما كان النموذج أصغر، كانت معالجة الدفعات وفواتير السحابة أرخص

الشركات الناشئة والصناعة الموصولة تستخدم بالفعل التكميم بنشاط. أطلقت Meta الإصدار Llama 2 مع دعم رسمي لتكميم int8. أطلقت Hugging Face bitsandbytes — مكتبة تبسط التكميم للمهندسين. الآن يسمح llmcompressor بفعل ذلك مع السيطرة الدقيقة على الطريقة.

ماذا يعني هذا

التكميم ينتقل من فئة التجارب إلى أداة خط أنابيب ML القياسية. هذا هو إغلاق آخر ميل — أدوات مثل llmcompressor تسمح للمهندس باختيار توازن بين الحجم والسرعة والجودة في ساعات بدلاً من أسابيع التجريب. بالنسبة لكامل الصناعة هذا يعني: نماذج اللغات الكبيرة أصبحت أكثر سهولة في الوصول، وأرخص في التشغيل، وأكثر أماناً من حيث الخصوصية، لأن يمكنك تشغيلها محلياً بدون السحابة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…