التدريب

التكييف الكمي منخفض الرتبة (Quantized Low-Rank Adaptation)

QLoRA هي طريقة ضبط دقيق تقوم بتكمية نموذج أساس مجمد إلى دقة 4-بت بينما تدرب محولات LoRA بدقة أعلى، مما يتيح ضبط نماذج اللغة الكبيرة على وحدة معالجة رسومات واحدة للمستهلك أو احترافية.

QLoRA (التكييف الكمي منخفض الرتبة) هي امتداد لـ LoRA قدمه Tim Dettmers وزملاؤه بجامعة واشنطن في ورقة عام 2023 (NeurIPS 2023). تقلل LoRA القياسية المعاملات القابلة للتدريب لكنها لا تزال تتطلب تحميل نموذج الأساس الكامل في ذاكرة وحدة معالجة الرسومات بدقة 16-بت، مما يجعل النماذج فوق حوالي 13 مليار معامل غير عملية للضبط الدقيق على وحدة معالجة رسومات واحدة. تحل QLoRA هذه المشكلة بتخزين أوزان نموذج الأساس المجمد بتنسيق مكمى 4-بت، بينما يتم تدريب وتحديث أوزان محول LoRA بدقة bfloat 16-بت.

تعتمد QLoRA على ثلاث ابتكارات تقنية. NormalFloat 4-بت (NF4) هو نوع بيانات التكمية مصمم لموترات الأوزان التي تتبع توزيعاً طبيعياً تقريباً، مما يحقق دقة أفضل من التكمية الصحيحة القياسية 4-بت بنفس عرض البت. تضغط التكمية المزدوجة بشكل أكبر ثوابت التكمية لكل كتلة نفسها، واستعادة ذاكرة إضافية بتكلفة دقة مهملة. تستخدم المحسّنات المترجمة نظام الذاكرة الموحدة من NVIDIA للتعامل مع ارتفاعات حالة المحسّن بواسطة نقل البيانات بشفافية بين ذاكرة وحدة معالجة الرسومات والذاكرة العشوائية للمعالج (CPU)، مما يمنع أعطال نفاد الذاكرة أثناء خطوات التدرج. معاً، تقلل هذه التقنيات البصمة الذاكرة لنموذج بـ 65 مليار معامل من أكثر من 130 جيجابايت في float16 إلى أقل من 48 جيجابايت، مما يتيح الضبط الدقيق على وحدة معالجة رسومات A100 واحدة بـ 80 جيجابايت.

كان التأثير الديمقراطي كبيراً. قبل QLoRA، كان يتطلب ضبط النماذج الأكبر من 13 مليار معامل مجموعات خادم متعددة وحدات معالجة الرسومات. بعد إطلاقها، أصبحت نماذج 33B و 65B قابلة للضبط الدقيق على وحدة معالجة رسومات احترافية واحدة، والنماذج الأصغر على أجهزة RTX 4090 للمستهلك. أثبتت الورقة الأصلية هذا من خلال إنتاج Guanaco، وهي سلسلة من النماذج المضبوطة بالتعليمات التي طابقت عن كثب GPT-3.5 على معيار التفضيل البشري رغم أنها تم ضبطها بدقة على وحدة معالجة رسومات واحدة في أقل من 24 ساعة.

بحلول عام 2026، تم دمج QLoRA في مكتبات الضبط الدقيق الرئيسية بما في ذلك bitsandbytes و Axolotl و Unsloth، وتُستخدم بانتظام في كل من سير العمل البحثي والإنتاجي. تم توسيع التقنية إلى العمارات متعددة الوسائط والرؤية-اللغة. تشمل القيود المتبقية عقوبة دقة صغيرة لكن قابلة للقياس بالنسبة إلى LoRA بدقة كاملة، خاصة عند رتب منخفضة جداً أو مع نماذج أصغر مضغوطة بشدة؛ يقلل الممارسون من ذلك باستخدام رتب أعلى قليلاً، أو التكمية 8-بت حيث تسمح الذاكرة، أو طبقات وسيطة ذات دقة مختلطة.

مثال

تستخدم مجموعة البحث الجامعية QLoRA لضبط نموذج Mistral بـ 13 مليار معامل على مجموعة بيانات منسقة من الأوراق العلمية، وتحميل نموذج الأساس المكمى 4-بت في حوالي 7 جيجابايت من ذاكرة الوصول العشوائية (VRAM) وتدريب محولات LoRA بـ bfloat16 على وحدة معالجة رسومات RTX 4090 واحدة—أجهزة ستكون غير كافية تماماً للضبط الدقيق بدقة كاملة لنموذج بهذا الحجم.

مصطلحات مرتبطة

التكييف منخفض الرتبة (Low-Rank Adaptation)التكميم (Quantization)الضبط الدقيق (Fine-tuning)

← المسرد