الاستدلال

التكميم (Quantization)

التكميم هو تقنية تمثيل أوزان الشبكة العصبية — وإن أمكن تفعيلاتها — في صيغ رقمية منخفضة الدقة مثل INT8 أو INT4 بدلاً من FP16 أو BF16 الافتراضية، مما يقلل الحجم الكامن ويسرع الاستدلال على حساب تدهور دقة صغير وعادة ما يكون مقبولاً.

يقلل التكميم في الشبكات العصبية عدد البتات المستخدمة لتخزين معاملات النموذج. يخزن نموذج تعليمي لغة واسع معياري الأوزان في صيغة عددية عائمة دماغية 16-بتية (BF16)، تستهلك بايتين لكل معامل: يتطلب نموذج بـ 70 مليار معامل حوالي 140 جيجابايت عند هذه الدقة. يقلل التكميم إلى أعداد صحيحة 8-بتية (INT8) استخدام الذاكرة إلى النصف تقريباً إلى حوالي 70 جيجابايت؛ التكميم 4-بتي (INT4 أو NF4) يقلله إلى حوالي 35 جيجابايت، مما يضع نموذج 70B في متناول زوج من بطاقات NVIDIA RTX 4090 من فئة المستهلكين (كل واحدة بها 24 جيجابايت VRAM) أو معالج A100 واحد بـ 80 جيجابايت. يترجم تقليل الذاكرة مباشرة إلى تكاليف استضافة أقل ويمكّن من النشر على أجهزة قد تكون غير كافية بخلاف ذلك.

توجد منهجيتان أساسيتان. يطبق التكميم بعد التدريب (PTQ) التكميم على نموذج مدرب بالفعل دون تحديثات تدرج إضافية: GPTQ (2022) يستخدم معلومات تقريبية من الرتبة الثانية لتقليل خطأ التكميم طبقة تلو الأخرى؛ AWQ (كمية الأوزان التي تدرك التفعيل، 2023) يحدد ويحمي الجزء الصغير من الأوزان التي تساهم أكثر في حجم التفعيل، محافظة على الدقة عند نطاقات بتية منخفضة جداً دون إعادة تدريب. يدرج التدريب الذي يدرك التكميم (QAT) تكميم محاكى في حلقة التدريب بحيث يتعلم النموذج التعويض عن فقدان الدقة أثناء النزول المتدرج، مما ينتج عنه دقة أعلى من PTQ عند نفس النطاق البتي على حساب حساب تدريب إضافي. تصاغ هجينة مثل NF4 (عدد عائم عادي 4-بتي، محسّن للأوزان التي تتبع توزيعاً عادياً، مستخدم في bitsandbytes) و GGUF (صيغة الحاوية المستخدمة بواسطة llama.cpp للاستدلال المختلط من CPU و GPU) أصبحت تنسيقات التوزيع السائدة للنماذج مفتوحة الأوزان.

التكميم هو المُمَكّن الأساسي للاستدلال المحلي وعلى الجهاز LLM. بدونه، حتى نموذج بـ 7 مليارات معامل عند FP16 يتطلب حوالي 14 جيجابايت من الذاكرة، متجاوزاً سعة معظم بطاقات GPU المحمولة والمسرعات المحمولة. على مستوى السحابة، يقلل تكميم أوزان INT8 طلب عرض النطاق الترددي للذاكرة بمقدار النصف أثناء مرحلة الفك (الاختناق السائد لتوليد الرموز) — تقريباً مضاعفة الإنتاجية لكل GPU. عادة ما يكون فقدان الدقة غير مهم عند INT8 وصغير ولكن قابل للقياس عند INT4 على معظم المعايير؛ الذهاب إلى 2-بتي أو 1-بتي يتسبب في تدهور أكبر ويبقى حدود بحثية نشطة.

اعتباراً من 2026، تكميم أوزان INT8 عام بشكل أساسي في نشرات الاستدلال السحابية. توزع المجتمع مفتوح المصدر جميع النماذج الرئيسية مفتوحة الأوزان — LLaMA 3، Mistral، Qwen 2.5، Gemma 2 — كملفات GGUF المكممة بشكل افتراضي على Hugging Face. يستفيد إطار عمل MLX الخاص بـ Apple من التكميم 4-بتي للاستدلال على الجهاز على Apple Silicon. أظهرت بحث Microsoft Research's BitNet b1.58 (2024) دقة تنافسية مع أوزان ثلاثية (−1، 0، +1)، و Qualcomm شحنت معجلات استدلال INT4 مخصصة في SoCs المحمول. تكميم KV-cache — تكميم مستقل للتنسورات الانتباهية المخزنة من FP16 إلى INT8 أو INT4 — أصبح أيضاً ممارسة قياسية في أكوام الخدمة الإنتاجية بما في ذلك vLLM و TensorRT-LLM.

مثال

يقوم مطور بتشغيل LLaMA 3 70B محلياً على بطاقة NVIDIA RTX 4090 واحدة باستخدام تكميم GGUF 4-بتي عبر llama.cpp؛ يشغل النموذج المكمم حوالي 38 جيجابايت في ذاكرة النظام مع إفراغ جزئي للـ GPU بدلاً من ~140 جيجابايت المطلوبة بدقة BF16 الكاملة، مما يمكّن من الاستدلال المحلي العملي مع تقليل صغير فقط في دقة المعايير.

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد