جديد CompileIQ من NVIDIA يكتشف الإمكانات المخفية لنوى GPU من خلال ضبط معاملات المترجم
قدمت NVIDIA CompileIQ - أداة تكتشف التسريعات المخفية في كود GPU من خلال الاختيار التلقائي لمعاملات المترجم. عندما يكون المطور قد حسّن بالفعل أحجام الدفعات،…
معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
قدمت NVIDIA CompileIQ - نظام الاختيار التلقائي للمعاملات المثلى للمترجم لنوى GPU. هذا حل لمرحلة التحسين الأخيرة للأداء، عندما تكون الطرق القياسية (التكمية، دمج النوى، تحسين الخوارزميات) قد استنفدت.
عندما تصطدم التحسينات اليدوية بالجدار
تخيل السيناريو: قضى المطورون أسابيع في تحسين استدلال LLM على GPU. ضبطوا أحجام الدفعات، وحولوا النموذج إلى FP8، وطبقوا flash attention، ودمجوا النوى الدقيقة في نواة واحدة، وأعادوا التحقق من استخدام الذاكرة. يقول محلل الأداء: «لا مزيد من التحسينات». لكن CompileIQ تجد 5-10% إضافية من التسريع، بمجرد تغيير معاملات المترجم.
لماذا هذا ممكن؟ مترجم NVCC (CUDA) له مئات المعاملات: مستويات التضمين، استراتيجيات التخزين المؤقت، إدارة السجلات، جدولة خيوط warp. مجموعاتها تعطي ملايين الخيارات. التحقق منها يدويًا سيستغرق أشهرًا. كل معامل يمكن أن يغير بشكل جذري أداء الكود على معمارية GPU محددة.
كيف تجد CompileIQ التسريعات
تستخدم النظام التعلم الآلي للبحث التلقائي عن المعاملات المثلى:
- فضاء البحث — يولد النظام مجموعات معاملات المترجم، بدءًا من المعتادة والانتقال إلى الغريبة
- التحليل الشامل — يتم تجميع كل متغير وتحميله على GPU واختباره على حمل حقيقي
- تدريب النموذج — تحدد خوارزمية التعلم الآلي الارتباطات: أي معاملات تؤثر على السرعة لنوع كود معين
- التكيف — يتم ضبط المعاملات لمعمارية محددة (H100، L100، RTX4090)
- التحقق — يتم التحقق من الإعدادات النهائية على عدة أحمال للاستقرار
النتيجة: بدلاً من المحاولة اليدوية لمئات المجموعات، يجد النظام الحل شبه الأمثل في ساعات من الحسابات الآلية.
لماذا يوفر هذا ملايين
في عصر نماذج اللغة الكبيرة، كل نسبة من الأداء - توفير حقيقي. في مجموعات GPU السحابية، تكلفة مثيل H100 أعلى بحوالي مرتين من A100. إذا أعطتنا CompileIQ تسريعًا بنسبة 5-10%، يمكن للشركة توفير ملايين الدولارات في البنية التحتية - ببساطة بعدم شراء وحدات GPU إضافية. بالنسبة لشركة ناشئة تملك 100 وحدة GPU، قد يكون هذا الفرق ملايين سنويًا. بالنسبة للشركات التي تنشر نماذج خاصة (Llama، Mistral، Code Llama)، كل تسريع يحسن مباشرة زمن التأخير للمستخدمين النهائيين، وهو أمر بالغ الأهمية للإنتاج.
«تحسين مستوى المترجم هو الحدود الأخيرة للأداء التي يتجاهلها معظم المطورين لأنها معقدة جدًا.
CompileIQ تغير هذا».
ماذا يعني هذا
تمثل CompileIQ اتجاهًا جديدًا في الذكاء الاصطناعي: يتم استخدام التعلم الآلي لتحسين التعلم الآلي نفسه. الآن لا يحتاج المطور إلى قضاء أشهر في التجريب مع معاملات المترجم - زود CompileIQ محلل الأداء، وستجد النظام التسريع المخفي تلقائيًا. هذا يقلل من حاجز الدخول للفرق التي لا تملك خبرة عميقة في تحسينات GPU منخفضة المستوى، ويجعل هذا المجال الحرج للتطوير أكثر إمكانية في الوصول.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.