Hugging Face Blog→ المصدر

علمت Hugging Face مكتبة TRL توصيل تريليون معامل عبر دلتا الأوزان

قدمت Hugging Face تقنية Delta Weight Sync لـ TRL - وهي أداة توصل تريليون معامل عبر Hub بإرسال فقط دلتا الأوزان. تقلل الطريقة حجم البيانات المنقولة بمئات…

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
علمت Hugging Face مكتبة TRL توصيل تريليون معامل عبر دلتا الأوزان
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

أضافت Hugging Face إلى مكتبة TRL (Transformers Reinforcement Learning) أداة Delta Weight Sync - وهي طريقة لتوصيل فعال ومزامنة النماذج العملاقة التي تحتوي على تريليون معامل عبر منصة Hub العادية.

لماذا يصعب توصيل تريليون معامل

عند تدريب نماذج اللغات الكبيرة في بيئة موزعة - مثل التدريب الإضافي عبر التعلم المعزز أو الضبط الدقيق على البيانات المتخصصة - يجب مزامنة أوزان النموذج بين عقد التدريب. إذا كان وزن النموذج مئات جيجابايت أو حتى تيرابايت، فإن مجرد إرسال الملفات الكاملة يعني إهدار كمية هائلة من عرض النطاق الترددي للشبكة. الطريقة التقليدية: تنزيل نقطة تفتيش كاملة (قد تكون 2-4 تيرابايت)، وتطبيق التغييرات الناتجة عن خطوة تدريب واحدة، وتحميل الملف مرة أخرى على Hub. على خادم Hub، هذا يحتل مساحة (حصص)، وعبر الشبكة - يستغرق ساعات من الانتظار.

كيف يعمل Delta Weight Sync

لا ترسل Delta Weight Sync الملف بالكامل، بل فقط الفرق (دلتا) بين الإصدار القديم من الأوزان والإصدار الجديد. إنه يشبه git diff، لكن لأوزان الشبكات العصبية.

  • يتم حساب الفرق بين نقطة التفتيش A ونقطة التفتيش B
  • يتم ضغط الدلتا (يحقق الضغط نسبة 10-50x في التحديثات الإضافية)
  • يتم إرسال الدلتا إلى Hub في ملف منفصل
  • على العقدة الأخرى: يتم تنزيل الدلتا، وتطبيقها على النسخة المحلية من الأوزان
  • النتيجة: مزامنة بحجم بيانات أصغر بمئات المرات

يعتمد التأثير على مدى قوة تغيير الأوزان. في التدريب الإضافي المتزايد، غالباً ما يتغير 2-5% فقط من الأوزان، والباقي يتطابق مع الإصدار الأصلي. تستخدم Delta Weight Sync هذه الخاصية بشكل نشط.

الاقتصادات على نطاق واسع

بالنسبة لنموذج بتريليون معامل، قد تكون نقطة التفتيش الكاملة 2-4 تيرابايت. إرسال هذا الحجم عبر الشبكة يستغرق ساعات، حتى على القنوات المخصصة. يتم إرسال دلتا بحجم 100-500 جيجابايت في 15-60 دقيقة. بالنسبة للأنظمة التي تزامن الأوزان عشرات المرات في اليوم (وهو شائع في RLHF، حيث يتغير وزن النموذج في كل تكرار)، هذا يوفر أياماً من التدريب.

"مع

Delta Weight Sync يمكن الاحتفاظ بالنماذج العملاقة في Hub بدون عقوبة على عرض النطاق الترددي" - وهو المفهوم الأساسي الذي يقوم عليه الأداة.

من يستخدم هذا

Delta Weight Sync مفيد بشكل خاص لـ:

  • RLHF الموزع - عند التدريب الإضافي للنموذج بناءً على التغذية الراجعة من الأشخاص أو النماذج الأخرى
  • مجموعات متعددة العقد، حيث تقوم كل عقدة بتدريب إضافي متوازي لنسخة من النموذج
  • التجارب مع المعاملات الفائقة - تغيير التكوين بسرعة، ومزامنة فقط الدلتا
  • الفرق ذات عرض النطاق الترددي المحدود - السحابة بدون عرض نطاق ترددي غير محدود، والمختبرات المحلية

ماذا يعني هذا

Delta Weight Sync ليست ثورة في النظرية، بل خطوة هندسية نحو الواقعية. تريليون معامل لم تعد تمثل كابوساً بشأن التخزين والمزامنة، بل هي ببساطة معيار. بالنسبة للشركات الناشئة والفرق البحثية، هذا يعني: يمكن العمل مع نماذج ضخمة على أجهزة متواضعة وشبكات أضعف، إذا تم تنظيم ضغط الدلتا بشكل صحيح.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…