OpenAI Blog→ المصدر

OpenAI تكشف عن MRC — بروتوكول شبكي لعناقيد تدريب AI تضم 100 ألف GPU

أتاحت OpenAI عبر Open Compute Project مواصفة MRC، وهو بروتوكول شبكي جديد لتدريب النماذج الكبيرة. يقسم حركة مرور اتصال واحد إلى مئات المسارات، ويتجاوز الأعطال بس

معالج بواسطة الذكاء الاصطناعي من OpenAI Blog؛ بتحرير Hamidun News
OpenAI تكشف عن MRC — بروتوكول شبكي لعناقيد تدريب AI تضم 100 ألف GPU
المصدر: OpenAI Blog. كولاج: Hamidun News.
◐ استمع للمقال

أعلنت OpenAI عن MRC — بروتوكول شبكة جديد للحاسوبات العملاقة المستخدمة في تدريب نماذج ذكاء اصطناعي كبيرة. وفقًا للشركة، فإنه مُنتشر بالفعل عبر جميع أكبر مجموعات الخوادم لديها على NVIDIA GB200، بما في ذلك منشأة OCI في أبيلين وأنظمة Microsoft Fairwater، ويساعد على الحفاظ على الأداء حتى في حالة فشل روابط الشبكة والمبدلات.

لماذا كان MRC ضروريًا

يعتمد تدريب نماذج frontier ليس فقط على معالجات GPU نفسها، بل أيضًا على الشبكة بينها. في كل خطوة تدريب، يحدث ملايين التبادلات البيانية، وإذا تأخر حتى مجرد حزمة واحدة أو تدفق واحد بشكل ملحوظ عن الآخرين، تبدأ بعض المعجلات بالبقاء معطلة. في المجموعات الأصغر، يمكن تحمل مثل هذه التأخيرات، لكن في الأنظمة بحجم Stargate، تصبح المشكلة منهجية: كلما زاد عدد العقد المشاركة، زادت احتمالية الازدحام وتذبذب الكمون وأعطال الأجهزة.

بالنسبة لـ OpenAI، لم تعد هذه مهمة هندسية ثانوية. تشير الشركة إلى أن ChatGPT يستخدمه أكثر من 900 مليون شخص أسبوعيًا، مما يعني أن البنية التحتية الحسابية تصبح طبقة أساسية للخدمة. لذلك أعادت الفريق، بالتعاون مع AMD و Broadcom و Intel و Microsoft و NVIDIA خلال السنتين الماضيتين، بناء كومة الشبكة لتوفير ليس فقط سرعة عالية بل سلوك يمكن التنبؤ به تحت الحمل وأثناء الأعطال الجزئية.

كيفية عمل الشبكة

الفكرة الأساسية خلف MRC هي عدم التعامل مع واجهة الشبكة كأنبوب واحد كبير بسعة 800 جيجابت/ثانية. بدلاً من ذلك، تقسمها OpenAI إلى عدة قنوات أصغر: على سبيل المثال، ثماني خطوط بسعة 100 جيجابت/ثانية، لكل منها مبدل خاص به. يؤدي هذا إلى إنشاء شبكة متعددة المستويات حيث يمكن توجيه حركة المرور نفسها عبر مسارات مستقلة متعددة.

في مثل هذا التكوين، وفقًا لتقديرات OpenAI، يمكن بناء شبكة حوالي 131 ألف GPU بمستويين فقط من مبدلات Ethernet، بينما التصميم التقليدي بسعة 800 جيجابت/ثانية يتطلب ثلاثة أو أربعة مستويات. يأتي البروتوكول نفسه بعد ذلك، ويوسع كومة RoCE المألوفة لمهام تدريب الذكاء الاصطناعي. بدلاً من إرسال جميع حركة المرور عبر مسار واحد، يقوم MRC بـ "نثر" حزم نقل واحد عبر مئات المسارات في نفس الوقت.

قد تصل الحزم غير مرتبة، لكن هذا مقبول لأن كل حزمة تحدد بالفعل عنوان الذاكرة النهائي، ويقوم المستقبل بتجميع البيانات في مكانها مع وصولها. يسمح هذا للشبكة باستخدام القنوات المتاحة بشكل أكثر توحيدًا والتعامل بشكل أفضل بكثير مع الازدحام المحلي.

  • يتم تقسيم تبادل واحد إلى مسارات متوازية متعددة عبر مستويات شبكة مختلفة
  • عندما يتم اكتشاف علامات الازدحام، يزيل البروتوكول المسار الإشكالي ويستبدله بآخر
  • عند فقدان حزمة، يفترض MRC بسرعة الفشل وإعادة إرسال البيانات
  • إذا فقدت حزمة بسبب الازدحام على جانب المستقبل، يساعد packet trimming — بإرسال الرأس فقط لطلب صريح لإعادة الإرسال

تؤكد OpenAI على وجه التحديد أن MRC يمكن أن يتجاوز أعطال الشبكة على مقاييس الميكروثانية، بينما قد تتطلب الهياكل التقليدية ثوانٍ أو حتى عشرات الثوانية لإعادة تكوين المسارات. هذا حرج بشكل خاص للتدريب المتزامن، حيث تتحدد خطوة الحساب الكاملة ليس بالمتوسط بل بأبطأ نقل في المجموعة. مع هذا التوازن، يمكن لمهام متعددة مشاركة مجموعة خادم واحدة مع مخاطر أقل من التداخل.

ما الذي يتغير في التشغيل

تحول مهم آخر هو الابتعاد عن التوجيه الديناميكي التقليدي لصالح توجيه المصدر القائم على SRv6. في الشبكة النموذجية، تعيد المبدلات نفسها حساب المسارات من خلال بروتوكولات مثل BGP، مما يضيف تعقيدًا ويقدم أوضاع فشل جديدة. في MRC، يقوم المرسل بترميز مسار الحزمة مباشرة في عنوان IPv6، والمبدلات تنفذ هذا المسار ببساطة بالتسلسل باستخدام جداول ثابتة.

تبدو الفكرة جذرية، لكن وفقًا لـ OpenAI، فإنها تبسط مستوى التحكم وتزيل الحاجة إلى إصلاح منطق الشبكة يدويًا باستمرار. بالنسبة لـ OpenAI، تهم الممارسة أكثر من النظرية، وهنا تملك الشركة أرقام ملموسة. تقول إن شبكات التدريب لديها تتكون من ملايين الروابط، وفي عمليات النشر الفعلية، قد تحدث انقطاعات موجزة متعددة بين مبدلات tier-0 و tier-1 كل دقيقة — دون تأثير قابل للقياس على التدريب المسبق المتزامن.

أثناء تدريب أحد نماذجها frontier الحديثة لـ ChatGPT و Codex، اضطر المهندسون إلى إعادة تشغيل أربعة مبدلات tier-1، ولم يتطلب ذلك تنسيقًا مع الفرق التي كانت تجري التدريب في ذلك الوقت. إذا فقدت واجهة شبكة بثمانية منافذ منفذ واحد، ينخفض الإنتاجية بمقدار ثمن واحد على الأكثر، لكن المهمة نفسها تستمر في التشغيل بدلاً من أن تفشل تمامًا.

ما الذي يعنيه هذا

يدل MRC على أن السباق نحو نماذج أقوى يتحول بشكل متزايد إلى البنية التحتية. لا تسرع OpenAI فقط تدريب مجموعاتها، بل تساهم أيضًا بالبروتوكول في Open Compute Project، محاولة تحويل حلها الهندسي الخاص إلى معيار صناعي. إذا تم اعتماد النهج من قبل مختبرات أخرى وموفري السحابة، ستصبح مجموعات الذكاء الاصطناعي الكبيرة أرخص وأبسط في التشغيل وأكثر مرونة للأعطال دون ضبط شبكة يدوي مستمر.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…