Together AI Blog→ المصدر

Together AI: GPT-5.5 وGemini وOpus لا تجيد كتابة أنوية multi-GPU سريعة

أطلقت Together AI معيار ParallelKernelBench، وهو benchmark يضم 87 مهمة لتوليد أنوية CUDA لأنظمة multi-GPU من قواعد شيفرة حقيقية. أفضل النماذج — GPT-5.5…

معالج بواسطة الذكاء الاصطناعي من Together AI Blog؛ بتحرير Hamidun News
Together AI: GPT-5.5 وGemini وOpus لا تجيد كتابة أنوية multi-GPU سريعة
المصدر: Together AI Blog. كولاج: Hamidun News.
◐ استمع للمقال

نشرت Together AI ParallelKernelBench (PKB) — أول معيار مفتوح لتقييم قدرة نماذج اللغة على توليد نوى CUDA فعّالة لبيئات GPU المتعددة. بعد اختبار أكثر من 40 نموذجاً على 87 مهمة واقعية، اكتشف الباحثون: أفضل النماذج الحدودية تحل أقل من ثلث المهام بشكل صحيح — وعدد قليل منها فقط يتفوق بالفعل على تطبيق PyTorch الساذج.

لماذا وحدات GPU المتعددة أكثر تعقيداً

تعلمت نماذج اللغة الكتابة جيداً لكود GPU واحد، وغالبية معايير برمجة GPU الموجودة تقتصر على هذا السيناريو بالضبط. لكن أنظمة الذكاء الاصطناعي الإنتاجية الحقيقية تجاوزت هذا الحد منذ زمن: فهي تعمل على عشرات ومئات وحدات GPU في آن واحد. في مثل هذه التكوينات، يتوقف الأداء الحسابي عن كونه الاختناق الرئيسي — هذا الدور يتولاه الاتصال بين الأجهزة. وفقاً لـ Together AI، فإن تكلفة نقل البيانات بين وحدات GPU تستهلك أكثر من 20٪ من زمن التأخير في الاستدلال — وسيزداد هذا الفجوة، لأن قوة الرقاقات تستمر في تجاوز عرض النطاق الترابطي بين الرقاقات. يختلف توليد الكود متعدد GPU بشكل أساسي عن كود GPU الواحد لثلاثة أسباب:

  • انفجار تركيبي للخيارات — يجب الاختيار بين موازاة tensor وموازاة context وموازاة expert وموازاة data وأنواع أخرى من الموازاة، كل منها ينشئ نمط اتصال خاص به
  • نموذج أداء مختلف — بدلاً من السقف الحسابي المحلي، يصبح القيد الرئيسي هو عرض النطاق الترابطي بين الرقاقات
  • اختيارات معمارية جديدة — كيفية نقل البيانات فعلياً بين وحدات GPU: من خلال محرك النسخ أو TMA أو تحميل/تخزين SM أو NVLS، وما إذا كان يجب دمج نقل البيانات مع الحسابات

كيفية عمل المعيار

يتضمن PKB 87 مهمة من قواعد أكواد حقيقية: Megatron-LM و DeepSpeed و DeepEP و TensorRT-LLM و NeMo-RL — وكذلك أحمال عمل موزعة غير قياسية: التوجيه في شبكات الرسوم البيانية العصبية وFFT الموزعة والرش الغاوسي. يغطي هذا الاختيار جميع أساليب التقسيم الرئيسية: tensor و context و data و expert و sequence و FSDP/ZeRO. تبدأ كل مهمة بتطبيق قياسي PyTorch + NCCL ووصف طوبولوجيا الأجهزة. يجب على النموذج استبداله بنواة CUDA الخاصة به التي تنقل البيانات مباشرة بين وحدات GPU عبر NVLink من خلال الذاكرة المتماثلة، تجاوز مكدس العمليات الجماعية القياسي. يتم التقييم على أساس ثلاثة معايير: صحة النتيجة وتسريع الساعة الحائط وتحقيق سقف الاتصال — الحد النظري لعرض نطاق الربط.

النتائج والانتصارات غير المتوقعة

اختبرت Together AI أكثر من 40 نموذجاً، بما في ذلك GPT-5.5 و Gemini 3 Pro و Opus 4.7 — المتغيرات الرئيسية الحالية من OpenAI و Google و Anthropic. كانت النتائج محبطة بالتساوي للجميع:

  • حل أفضل نموذج بشكل صحيح أقل من ثلث 87 مهمة
  • أقل من ربع الحلول الصحيحة تفوقت على تطبيق PyTorch + NCCL الأساسي الساذج
  • الأعطال الرئيسية — في إدارة الاتصال بين وحدات GPU واختيار الطريقة الصحيحة لنقل البيانات

في الوقت نفسه، أثبتت عدة حلول قوة غير متوقعة: نوى فردية تم توليدها تفوقت على جميع التطبيقات المتاحة علنياً. من أهم الحالات تدريب GRPO في NVIDIA NeMo-RL — لم يكن هناك كود عام محسّن لهذه العملية حتى الآن، وقام نموذج اللغة بكتابته قبل البشر.

"اتضح أن عدة نوى تم توليدها أسرع من أي شيء متاح علنياً،" — من تقرير

ParallelKernelBench الفني.

ما معنى هذا

يحدد PKB الحدود التالية في تطور البرمجة بالذكاء الاصطناعي: الانتقال من GPU واحد إلى الأنظمة الموزعة متعددة GPU. في الوقت الحالي، لا تستطيع نماذج الحدود التعامل مع هذا — لكن ومضات نادرة من النجاح تشير إلى أن التقدم ممكن مع الجمع المركز للبيانات التدريبية المتخصصة. بالنسبة للفرق التي تحسّن الاستدلال والتدريب على عناقيد GPU، هذا معيار مهم: الأداة تنضج، لكنها ليست جاهزة بعد للاعتماد الواسع.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…