جامعة Twente خفّضت استهلاك الطاقة في تدريب النماذج اللغوية الكبيرة بنسبة 14%
طور باحثون من جامعة Twente بهولندا طريقة تقلل استهلاك الطاقة عند تدريب نماذج اللغات الكبيرة بنسبة 14% دون فقدان الأداء. تعتمد التقنية المسماة DVFS على تنظيم…
معالج بواسطة الذكاء الاصطناعي من IEEE Spectrum AI؛ بتحرير Hamidun News
طوّر باحثون من جامعة Twente في هولندا طريقة تتيح توفير ما يصل إلى 14% من الطاقة عند تدريب نماذج اللغات الكبيرة دون فقدان سرعة التدريب. تعتمد التقنية على إدارة ديناميكية لتردد الساعة في وحدة معالجة الرسومات وتطبق لأول مرة على مستوى تفصيل دقيق جداً.
كيف يعمل DVFS
تقنية DVFS (التحجيم الديناميكي للجهد والتردد) هي تقنية معروفة تغيّر تردد الساعة في وحدة معالجة الرسومات اعتماداً على عبء العمل الحسابي الحالي. كل عملية في المعالج تتم بنبضة من نبضات الساعة، وتردد هذه النبضات يحدد كل من سرعة عمل وحدة معالجة الرسومات واستهلاكها للطاقة. تمتلك وحدات معالجة الرسومات الحديثة نظامي ساعة مستقلين: أحدهما لنواة العمليات الحسابية والآخر لكتلة الذاكرة. عندما تقوم النواة بعمليات حسابية مكثفة، تعمل ساعتها على تردد عالي، بينما يمكن إبطاء ساعة الذاكرة. وعندما تنتظر النواة بيانات من الذاكرة، الوضع معاكس - يمكن إبطاء النواة وتسريع الذاكرة. هذا التوازن يقلل من الاستهلاك الكلي للطاقة دون فقدان الأداء.
لماذا فشلت الطرق السابقة
تقنية DVFS موجودة منذ التسعينيات، لكن تطبيقها على تدريب نماذج اللغات الكبيرة أثبت أنه أصعب مما بدا. محاولات سابقة إما أبطأت العمليات الحسابية بشكل كبير جداً أو كانت غير مرنة بما يكفي. المشكلة الرئيسية: معظم الطرق كانت تنظم التردد فقط على مستوى التكرارات الكاملة للتدريب (التمرير الأمامي والانتشار العكسي)، وهو ما كان غليظاً جداً للحصول على تحسين فعال.
الابتكار على مستوى النوى
قررت فريق Jeffrey Spaan تغيير التردد على مستوى أدق بكثير - على مستوى نوى العمليات الفردية (kernels)، وهي كتل حسابية أولية. تنقسم العمليات الحسابية في وحدة معالجة الرسومات إلى عمليات صغيرة جداً: على سبيل المثال، عملية ضرب المتجهات الواحدة تمثل نواة واحدة. عند تدريب طبقة واحدة من الشبكة العصبية، تُطلق حوالي 40 نواة من هذه النوى. من خلال تنظيم التردد لكل نواة على حدة، تمكنت الفريق من إيجاد توفير طاقة أكبر بكثير:
- تنظيم على مستوى كتل العمليات الحسابية الفردية بدلاً من التكرارات الكاملة
- التنبؤ بالنواة التالية يسمح بتعيين التردد المناسب مسبقاً
- توفير الطاقة بمتوسط 14% مع إبطاء يبلغ فقط 0.6%
- DVFS التلقائي لوحدة معالجة الرسومات يعمل بأداء أسوأ لأنه لا يستطيع التنبؤ بالخطوات التالية
النتائج والقيود
أجريت التجربة على نموذج GPT-3-XL (1.3 مليار معامل) على وحدة معالجة رسومات Nvidia RTX 3080 Ti. النتيجة: توفير 14% من الطاقة مع إبطاء يبلغ فقط 0.6%.
"نحن نحسّن توفير الطاقة دون فقدان الأداء. في العالم الحقيقي، الأداء هي كأس القدس"، كما يقول
Jeffrey Spaan.
هناك قيد واحد: تبديل الترددات يتطلب وقتاً، رغم أنه أقل من إيقاف تشغيل وتشغيل النواة بالكامل. في حسابات الباحثين، لم يؤخذ هذا في الاعتبار، لذا فإن 14% هو أفضل سيناريو. وحدات معالجة رسومات أحدث، مثل Nvidia Blackwell، لديها تبديل أسرع بكثير وستتمكن من الاستفادة بشكل كامل من هذا التوفير.
ما الذي يعنيه هذا
إذا طُبقت طريقة Spaan في الصناعة، يمكن توفير مليارات ساعات الواط من الطاقة عند تدريب نماذج الحدود الأمامية. وهذا سيقلل البصمة الكربونية لصناعة الذكاء الاصطناعي وتكاليفها التشغيلية، دون الحاجة إلى استثمارات في معدات جديدة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.