NVIDIA GB200: الحوسبة الخارقة في رف واحد من خلال جدولة ذكية للمهام
أطلقت NVIDIA منهجية لتعظيم GB200 NVL72: باستخدام جدولة Slurm الواعية بطوبولوجيا الشبكة، يحقق رف واحد الحوسبة الخارقة لنماذج بتريليونات المعاملات. يعتمد الأداء ل

نماذج الذكاء الاصطناعي الكبيرة الحجم تتطلب موارد حسابية هائلة، وتبين أن كفاءة البنية الأساسية لا تعتمد فقط على الأجهزة بل أيضاً على كيفية توزيع أحمال العمل. أطلقت شركة NVIDIA دليلاً مفصلاً حول استخدام GB200 NVL72 مع مُجدّول Slurm، الذي يأخذ في الاعتبار طوبولوجيا الشبكة للتوزيع الأمثل للحسابات عبر المجموعات الموزعة.
آلة الإكسافلوبس في رف واحد نظام NVIDIA GB200 NVL72 هو نظام يضغط حسابات
الإكسافلوبس (10^18 عملية حسابية عائمة/ثانية) في رف واحد. تتيح هذه القوة تشغيل نماذج ذكاء اصطناعي في الوقت الفعلي بتريليونات من المعاملات، وهو ما كان يتطلب سابقاً مركز بيانات كاملاً. غير أن تحقيق الأداء المُعلن ممكن فقط إذا تم ترتيب المهام بشكل صحيح — أي إذا تم أخذ طوبولوجيا الشبكة الفيزيائية بين العقد داخل الرف في الاعتبار. قد يؤدي التوزيع السيء لأحمال العمل إلى تقليل النطاق الترددي وإلغاء جميع فوائد الأجهزة.
الطوبولوجيا تحل نصف المشكلة عندما تعمل معدِّلات GPU متعددة معاً، يصبح
وقت الاتصال بينها عاملاً حرجاً. إذا كانت المهمة موزعة عبر عقد بعيدة فيزيائياً عن بعضها البعض في التسلسل الهرمي للشبكة، تزداد الكمونات بشكل أسي، وتُهدر قوة الأجهزة بالكامل. هنا يأتي دور Slurm (أداة Linux البسيطة لإدارة الموارد) — مُجدّول المعيار في مجموعات الحوسبة عالية الأداء، والذي يتمتع الآن بدعم الجدولة الواعية بالطوبولوجيا.
هذا يعني أن Slurm يمكنه: رؤية الخريطة الكاملة لطوبولوجيا الشبكة الفيزيائية بين جميع العقد توزيع أحمال العمل الحسابية بحيث تكون العقد التي تتبادل البيانات قريبة من بعضها البعض أخذ المستويات المختلفة من التسلسل الهرمي في الاعتبار (الاتصالات الداخلية عالية السرعة مقابل القنوات بين الأرفف) تحسين توزيع المهام متعددة العقد تلقائياً دون التدخل البشري * تقليل تضارب الموارد الشبكية بين الوظائف المتوازية ## كيفية عمل هذا عملياً بالنسبة للمهندسين الذين يعملون مع نماذج بتريليونات المعاملات، هذا يمثل تبسيطاً ثورياً. بدلاً من تحسين موضع كل مهمة يدوياً، يرسل المتخصص المهمة ببساطة إلى Slurm — يختار المُجدّول أفضل تكوين بناءً على الطوبولوجيا والحمل الحاليين. تُظهر NVIDIA نتائج محددة على GB200 NVL72: مع الجدولة الصحيحة الواعية بالطوبولوجيا، يحقق النظام أداء الإكسافلوبس المُعلن مع استخدام كامل لنطاق العقد البيني.
بدون هذا التحسين، تنخفض الأداء بنسبة 30-50%، ويعمل المجموعة في وضع منصة اختبار باهظة الثمن.
لا يتم فتح القوة الكاملة للبنية الأساسية بقدر ما يتم من خلال شراء
المزيد من الرقائق، بل من خلال خوارزمية ذكية لتوزيع المهام على الأجهزة الموجودة.
ما يعنيه هذا العصر الذي كان يكفي فيه شراء المزيد من المعدات وبدء
التدريب ينتهي. أولئك الذين يدربون نماذج ضخمة جداً في المجموعات الموزعة يجب أن يفكروا الآن في الطوبولوجيا والجدولة بعناية مماثلة تماماً كما يفكرون في معدِّلات GPU والذاكرة بأنفسهم. يصبح Slurm مع دعم الطوبولوجيا جزءاً إلزامياً من مكدس الهندسة لمجموعات الذكاء الاصطناعي الجادة، سواء كانت مراكز بيانات الشركات أو موفري السحابة.