DeepSeek و Google و Meta: 10 تقنيات لضغط KV-cache في نماذج LLM لتقليل استهلاك الذاكرة في الاستدلال
ظل KV-cache منذ فترة طويلة عنق زجاجة لتشغيل نماذج LLM بسياق طويل، والآن يقدم الباحثون ليس طريقة واحدة فقط بل عشرات الطرق العملية لضغطه. تغطي المراجعة H2O و…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
تطور ذاكرة التخزين المؤقت KV من تفصيل مساعد إلى أحد أهم العوامل المحدودة للاستدلال LLM في الإنتاج. جمعت دراسة استقصائية جديدة 10 تقنيات تساعد على تقليل استهلاك الذاكرة دون إعادة تدريب كاملة للنموذج وفي كثير من الحالات تسرع الجيل بشكل ملحوظ.
حيث يواجه LLM القيود
كلما طال السياق وكلما زاد عدد الطلبات المتزامنة التي يخدمها النموذج، كلما تضخم ذاكرة التخزين المؤقت KV بشكل أسرع—وهو تخزين وسيط للمفاتيح والقيم من آلية الانتباه. توفر الدراسة الاستقصائية مثالاً بارزاً: نموذج بـ 30 مليار معامل مع حجم دفعة 128 وإدخال 1024 رمز يمكن أن يشغل ما يصل إلى 180 غيغابايت من الذاكرة في ذاكرة التخزين المؤقت KV. حتى بالنسبة لنموذج 7B، تشغل الأوزان حوالي 14 غيغابايت من ذاكرة GPU، بينما يشغل التخزين المؤقت حوالي 72 غيغابايت—مما يعني أن آلية الجيل نفسها تبدأ في التكلفة أكثر من تخزين المعاملات.
لهذا السبب، أصبحت تحسين ذاكرة التخزين المؤقت KV اتجاهاً بحثياً منفصلاً، وليس مهمة ضبط بسيطة. يسمح ضغط التخزين المؤقت بزيادة حجم الدفعة وخدمة مزيد من المستخدمين على وحدة معالجة الرسومات نفسها وتجنب الوصول إلى حدود الذاكرة مع المطالبات الطويلة. ميزة مهمة هي أن الكثير من هذه الطرق تعمل مباشرة أثناء الاستدلال: النموذج الأساسي لا يحتاج إلى إعادة تدريب والتأثير يكون مرئياً على الفور في الإنتاجية وتكلفة الخدمة.
كيف يتم ضغطه
يستخدم الباحثون الآن عدة استراتيجيات تختلف ليس فقط في الجودة بل أيضاً في الموضع داخل خط الأنابيب. تتخلص بعض الطرق من الرموز الأقل فائدة، وتقلل أخرى من دقة تمثيل التخزين المؤقت، وتغيير البعض الآخر لعمارة الانتباه نفسها. فئة منفصلة تعيد توزيع الذاكرة بين الطبقات لأن الطبقات المبكرة تحتاج إلى سياق أغنى، بينما يمكن للطبقات العميقة أن تعمل مع عدد أقل من المفاتيح والقيم. بشكل أساسي، لم تعد المسألة متعلقة بنسب الادخار بل بالقدرة على تشغيل سياق طويل على نفس الأجهزة.
- تقليم الرموز: H2O و StreamingLLM و SnapKV تحتفظ فقط بجزء من الحالات. يحتفظ H2O برموز "ثقيلة" بمساهمة انتباه عالية، يحتفظ StreamingLLM بالرموز الأولى ونافذة حديثة، بينما يختار SnapKV المواضع المهمة حسب الانتباه في نهاية المطالبة.
- تخصيص الميزانية حسب الطبقة: يعمل PyramidKV و PyramidInfer على افتراض أن الطبقات العميقة تحتاج إلى سياق أقل ثراءً من الطبقات المبكرة، لذا يتم تخصيص الذاكرة بشكل غير متساوٍ.
- التكميم: يقلل KIVI و KVQuant و TurboQuant من دقة تمثيل ذاكرة التخزين المؤقت KV مع محاولة الحفاظ على جودة الجيل.
- التغييرات المعمارية: تقلل MQA و GQA و MLA من حجم التخزين المؤقت على مستوى مخطط الانتباه نفسه، بدلاً من أن تكون على نموذج موجود.
- الضغط منخفض الرتبة: تقطع Palu و LoRC والطرق المشابهة البعد المخفي لموترات KV بدلاً من طول التسلسل.
الأبسط في النشر هي الطرق بدون تدريب إضافي. يجد H2O الرموز التي تجمع معظم الانتباه وتتخلص من المواضع الضعيفة. يحتفظ StreamingLLM بالرموز الأولى كـ "مراسي انتباه" بالإضافة إلى نافذة حديثة، مما يجعله مناسباً للمحادثات اللانهائية لكنه يخاطر بفقدان معلومات سياق مهمة من المنتصف. يعمل SnapKV في مرحلة الملء المسبق ويختار المواضع المهمة بشكل منفصل لكل رأس انتباه، لذا يتفوق عادة على الأنماط الأكثر خشونة بنفس ميزانية التخزين المؤقت.
توزيعات أوزان الانتباه غالباً ما تتبع قانون القوة، لذا فإن إزالة
الرموز منخفضة المساهمة لا تؤثر دائماً بشكل شديد على الجودة.
من يوفر أفضل المكاسب
في التكميم، يبرز KIVI و KVQuant و TurboQuant بشكل ملحوظ. يحول KIVI ذاكرة التخزين المؤقت KV إلى تمثيل 2 بت بدون ضبط دقيق ويوفر، وفقاً للدراسة الاستقصائية، استخدام ذاكرة ذروة أقل بـ 2.6 مرة في مزيج "الأوزان بالإضافة إلى التخزين المؤقت" ويسمح بتشغيل دفعات أكبر بـ 4 مرات.
يذهب KVQuant أبعد: يستخدم المعايرة والدقة المختلطة ومعالجة منفصلة للقيم الشاذة للحفاظ على الجودة حتى على السياقات الطويلة بشكل استثنائي. تُنسب النتيجة الأكثر عدوانية في المادة إلى TurboQuant من Google Research. تقوم هذه الطريقة أولاً بمحاذاة توزيعات القيم من خلال دوران متعامد عشوائي، ثم تصحح خطأ التكميم بحيث تبقى تقدير المنتج القياسي غير متحيز.
على H100، يُظهر تقليلاً في الذاكرة بمعامل 6 على الأقل وانتباهاً أسرع بـ 8 مرات بدقة 3 بت. بالنسبة لفرق البنية الأساسية، هذا لم يعد تحسيناً محلياً بل مطالبة بمعيار خدمة جديد.
مسار منفصل هو تغيير معمارية النموذج نفسه. أصبح GQA بالفعل المعيار الفعلي لنماذج LLM الحديثة ذات الأوزان المفتوحة: بينما تم استخدامه فقط في إصدار Llama 2 الـ 70B، في Llama 3 توسع ليشمل كلا من 8B و 70B. وأبعد من ذلك هو MLA من DeepSeek، حيث بدلاً من المفتاح والقيمة الكاملة الحجم، يتم تخزين تمثيل كامن مضغوط لكل رمز. تلاحظ الدراسة الاستقصائية أن DeepSeek-V2 قلل ذاكرة التخزين المؤقت KV بنسبة 93.3% مقارنة بنموذجه السابق الكثيف 67B من خلال MLA.
ماذا يعني هذا
سوق LLM يقل اعتماده على حجم الأوزان فحسب ويزداد اعتماده على تكلفة الذاكرة في السياق الطويل. بالنسبة للفرق التي تبني خدمات الاستدلال، الخلاصة واضحة: المكاسب الآن تأتي ليس من تقنية سحرية واحدة بل من الاختيار الحكيم بين الإزالة والتكميم والعمارة المصممة لأحمال عمل محددة وSLA وميزانيات GPU.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.