جديد CompileIQ من NVIDIA يكتشف الإمكانات المخفية لنوى GPU من خلال ضبط معاملات المترجم

قدمت NVIDIA CompileIQ - أداة تكتشف التسريعات المخفية في كود GPU من خلال الاختيار التلقائي لمعاملات المترجم. عندما يكون المطور قد حسّن بالفعل أحجام الدفعات، وطبّق التكمية، واستخدم flash attention، وقام بدمج النوى - تبحث CompileIQ عن 5-10% إضافية من تحسن الأداء من خلال اختيار معاملات المترجم المدعومة بالتعلم الآلي.

Khamidun Zhemal

رصد الذكاء الاصطناعي · NVIDIA Developer Blog

31 مايو 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News

جديد CompileIQ من NVIDIA يكتشف الإمكانات المخفية لنوى GPU من خلال ضبط معاملات المترجم — المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.

◐ استمع للمقال

قدمت NVIDIA CompileIQ - نظام الاختيار التلقائي للمعاملات المثلى للمترجم لنوى GPU. هذا حل لمرحلة التحسين الأخيرة للأداء، عندما تكون الطرق القياسية (التكمية، دمج النوى، تحسين الخوارزميات) قد استنفدت.

عندما تصطدم التحسينات اليدوية بالجدار

تخيل السيناريو: قضى المطورون أسابيع في تحسين استدلال LLM على GPU. ضبطوا أحجام الدفعات، وحولوا النموذج إلى FP8، وطبقوا flash attention، ودمجوا النوى الدقيقة في نواة واحدة، وأعادوا التحقق من استخدام الذاكرة. يقول محلل الأداء: «لا مزيد من التحسينات». لكن CompileIQ تجد 5-10% إضافية من التسريع، بمجرد تغيير معاملات المترجم.

لماذا هذا ممكن؟ مترجم NVCC (CUDA) له مئات المعاملات: مستويات التضمين، استراتيجيات التخزين المؤقت، إدارة السجلات، جدولة خيوط warp. مجموعاتها تعطي ملايين الخيارات. التحقق منها يدويًا سيستغرق أشهرًا. كل معامل يمكن أن يغير بشكل جذري أداء الكود على معمارية GPU محددة.

كيف تجد CompileIQ التسريعات

تستخدم النظام التعلم الآلي للبحث التلقائي عن المعاملات المثلى:

فضاء البحث — يولد النظام مجموعات معاملات المترجم، بدءًا من المعتادة والانتقال إلى الغريبة
التحليل الشامل — يتم تجميع كل متغير وتحميله على GPU واختباره على حمل حقيقي
تدريب النموذج — تحدد خوارزمية التعلم الآلي الارتباطات: أي معاملات تؤثر على السرعة لنوع كود معين
التكيف — يتم ضبط المعاملات لمعمارية محددة (H100، L100، RTX4090)
التحقق — يتم التحقق من الإعدادات النهائية على عدة أحمال للاستقرار

النتيجة: بدلاً من المحاولة اليدوية لمئات المجموعات، يجد النظام الحل شبه الأمثل في ساعات من الحسابات الآلية.

لماذا يوفر هذا ملايين

في عصر نماذج اللغة الكبيرة، كل نسبة من الأداء - توفير حقيقي. في مجموعات GPU السحابية، تكلفة مثيل H100 أعلى بحوالي مرتين من A100. إذا أعطتنا CompileIQ تسريعًا بنسبة 5-10%، يمكن للشركة توفير ملايين الدولارات في البنية التحتية - ببساطة بعدم شراء وحدات GPU إضافية. بالنسبة لشركة ناشئة تملك 100 وحدة GPU، قد يكون هذا الفرق ملايين سنويًا. بالنسبة للشركات التي تنشر نماذج خاصة (Llama، Mistral، Code Llama)، كل تسريع يحسن مباشرة زمن التأخير للمستخدمين النهائيين، وهو أمر بالغ الأهمية للإنتاج.

«تحسين مستوى المترجم هو الحدود الأخيرة للأداء التي يتجاهلها معظم المطورين لأنها معقدة جدًا.

CompileIQ تغير هذا».

ماذا يعني هذا

تمثل CompileIQ اتجاهًا جديدًا في الذكاء الاصطناعي: يتم استخدام التعلم الآلي لتحسين التعلم الآلي نفسه. الآن لا يحتاج المطور إلى قضاء أشهر في التجريب مع معاملات المترجم - زود CompileIQ محلل الأداء، وستجد النظام التسريع المخفي تلقائيًا. هذا يقلل من حاجز الدخول للفرق التي لا تملك خبرة عميقة في تحسينات GPU منخفضة المستوى، ويجعل هذا المجال الحرج للتطوير أكثر إمكانية في الوصول.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →