أنشأت جامعة بيركلي بكاليفورنيا mKernel: مكتبة موحدة لمزامنة GPU في المجموعات
أطلقت فريق UCCL من جامعة بيركلي بكاليفورنيا mKernel — مكتبة CUDA لمزامنة GPU في المجموعات الضخمة. بدلاً من ثلاث أدوات منفصلة، فإنها تجمع بين الاتصال المحلي بين

أطلقت فريق UCCL من جامعة بيركلي مكتبة mKernel — مكتبة CUDA تحدث ثورة في مزامنة وحدات معالجة الرسومات في المجموعات الكبيرة. تجمع المكتبة الاتصالات المحلية بين وحدات معالجة الرسومات والمزامنة بين الخوادم والحوسبة في kernel دائم واحد، مما يتجنب تبديلات السياق المستمرة.
الاختناق في المجموعات الكبيرة الحجم
في مراكز البيانات الكبيرة، تعتبر المزامنة بين وحدات معالجة الرسومات أحد الاختناقات الرئيسية في عرض النطاق الترددي. عندما يعمل المهندسون على التدريب الموزع للنماذج الكبيرة، يواجهون مشكلة تم حلها تقليدياً بطريقة غير فعالة جداً. كان النهج القديم موضعياً: استخدم المهندسون ثلاث أدوات ومكتبات منفصلة.
الأولى — للاتصال السريع داخل خادم واحد (NVLink، الذي يعمل عبر كابلات عالية السرعة بين وحدات معالجة الرسومات). الثانية — للمزامنة بين الخوادم المختلفة عبر الشبكة (RDMA، الذي يستخدم محولات شبكة متخصصة). الثالثة — للحسابات ذاتها.
كل انتقال بين هذه الأنظمة الثلاثة يجمد خط أنابيب وحدة معالجة الرسومات بالكامل: يتم إجبارها على التوقف وتبديل السياق وتفريغ جزء من الذاكرة وتحميل بيانات جديدة ثم فقط المتابعة. في المجموعات التي تضم آلاف وحدات معالجة الرسومات، تتراكم هذه التأخيرات الميكروثانية في دقائق من الأداء المفقود.
كيف يحل mKernel المشكلة
يغير mKernel الفلسفة بشكل جذري. بدلاً من ثلاثة أنظمة منفصلة، تعمل جميع العمليات — الاتصالات المحلية والمزامنة عبر الشبكة والحوسبة — في kernel دائم واحد. هذا برنامج يعيش باستمرار في ذاكرة وحدة معالجة الرسومات ولم يتم تفريغه أبداً إلى وحدة المعالجة المركزية. تجمع الهندسة المعمارية ثلاثة مكونات:
- NVLink للاتصالات بين وحدات معالجة الرسومات على خادم واحد — يوفر سرعات أعلى بـ 10-20 مرة من PCIe، بفضل القنوات عالية السرعة المباشرة بين وحدات معالجة الرسومات
- RDMA عبر محولات الشبكة للمزامنة بين الخوادم — يتجنب عبء الوحدة المركزية والتأخيرات في نظام التشغيل عند نقل البيانات بين الآلات
- الحسابات الكثيفة المدمجة مباشرة في kernel — تعمل وحدة معالجة الرسومات على البيانات المحلية بدون عمليات تبديل وتتزامن مع الجيران وتنتقل مباشرة إلى المهمة التالية
هذا يعني أن وحدة معالجة الرسومات يمكنها الانتقال بسلاسة من الاتصالات المحلية عبر NVLink إلى المزامنة العالمية عبر RDMA إلى حساباتها الخاصة — كل ذلك في قطعة واحدة من الكود، بدون توقفات.
مثال محدد: كيف يعمل في الممارسة العملية
في التدريب الموزع، لا يمكن لوحدة معالجة الرسومات واحدة أن تتقدم حتى تنتهي وحدات معالجة الرسومات الأخرى على خوادم مختلفة من حساباتها وتزامن التدرجات. مع النهج القديم، تنتظر وحدة معالجة الرسومات ببساطة مع خط أنابيب فارغ تماماً. مع mKernel الحالة مختلفة: تستمر وحدة معالجة الرسومات في الحسابات المحلية على البيانات المحملة بالفعل، وتتزامن في نفس الوقت مع الجيران عبر NVLink و RDMA، وتنتقل فوراً إلى الموجة التالية من التدريب بدون انقطاع. إنه مثل خط التجميع في مصنع السيارات الذي لا يتوقف بينما تتحرك القطعة إلى المحطة التالية.
لماذا هذا حرج لمراكز البيانات
يعتبر التدريب الموزع للنماذج الكبيرة أحد أكثر المهام الحسابية تعقيداً في تطوير الذكاء الاصطناعي الحديث. عندما تستخدم في نفس الوقت 1000 وحدة معالجة رسومات (والشركات الكبيرة تعمل بعدد أكبر)، حتى بطء المزامنة الصغير يمكن أن يهدر 20-30% من جميع الموارد سدى. يعد mKernel بالتخلص تماماً من هذا الحمل الإضافي. في الاختبارات الأولية، يرى الباحثون بالفعل النتائج: على مجموعات متعددة العقد، تظهر المكتبة تسريعاً للمزامنة 2-3x على العمليات النموذجية. هذا حرج بشكل خاص لآلية الانتباه في المحولات، حيث تزامن التدرجات بين وحدات معالجة الرسومات هو الجزء الأكثر تكلفة من كل العمل.
ماذا يعني هذا
mKernel هو إشارة إلى أن برمجة وحدات معالجة الرسومات تدخل عصراً من الأنظمة المتكاملة. سابقاً، كان المهندسون يكتبون الكود على طبقات: أولاً الحسابات ثم المزامنة ثم النقل. الآن يتلاشى الحد الفاصل بينها. هذا يعني حوسبة أسرع في مراكز البيانات، وهذا يعني تدريباً أسهل وأسرع للنماذج الكبيرة، والأهم — سيتم تصميم الجيل التالي من الأنظمة الموزعة بطريقة مختلفة تماماً.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.