NVIDIA Vera Rubin: كيف سيقوم المطورون بتوسيع ذكاء الوكيل بدون تأخيرات

Q: ما هو المصدر؟

نُشر أصلاً على NVIDIA Developer Blog. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

21 مايو 2026. وقت القراءة: 3 دقيقة.

أطلقت NVIDIA منصة Vera Rubin — منصة متخصصة لذكاء الوكيل عالي السرعة. تجمع المنصة بين معالج GPU Vera Rubin NVL72 ومسرع Groq 3 LPX. على النماذج بتريليون معامل،…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · NVIDIA Developer Blog

21 مايو 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News

NVIDIA Vera Rubin: كيف سيقوم المطورون بتوسيع ذكاء الوكيل بدون تأخيرات — المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.

◐ استمع للمقال

قدمت NVIDIA منصة Vera Rubin، التي تحل المشكلة الرئيسية في توسيع ذكاء الوكيل — التأخيرات غير المتوقعة في جلسات متعددة الخطوات.

لماذا يكون توسيع ذكاء الوكيل أكثر تعقيداً

يعمل التوسيع التقليدي للنماذج بشكل جيد لمعالجة الدفعات: أرسل الكثير من النصوص، احصل على الكثير من الإجابات. لكن ذكاء الوكيل يعمل بشكل مختلف. يتخذ الوكيل قراراً، ثم ينفذ إجراءً، ينظر إلى النتيجة، ثم يتخذ القرار التالي. هذا يعني مئات الطلبات للنموذج في جلسة واحدة، كل منها بحجم دفعة صغير وضرورة صارمة جداً للسرعة. نظراً لأن مسار الوكيل غير متوقع مسبقاً (الإجراء الذي سيختاره الوكيل غير معروف)، من الصعب ترجمة وتحسين المعالجة. تتراكم التأخيرات، والسياق بـ 400K رموز يصبح نقطة الاختناق.

الحل ثلاثي الطبقات من Vera Rubin

بدلاً من اتباع منهج عام، دمجت NVIDIA ثلاث تقنيات تعمل معاً في المنصة:

الاتصالات الكبلية المباشرة بين الرقائق — كل وحدة LPU متصلة بـ 96 وحدة أخرى بسرعة 112 جيجابت/ثانية، مما يوفر 640 تيرابايت/ثانية من النطاق الترددي لكل رف دون الحاجة لمفاتيح شبكة

يخطط المترجم جميع عمليات نقل البيانات مسبقاً — بدلاً من القرار أثناء التنفيذ بشأن متى وأين إرسال البيانات، يحسب المترجم مسبقاً كل جزء من المعلومات عبر الشبكة

مزامنة آلاف الرقائق المستقلة — تقوم النظام بمحاذاة ساعات مسرّعات LPU بحيث تعمل الشبكة بتأخير معروف وقابل للتنبؤ

التسريع الهجين: NVIDIA + Groq

تستخدم المنصة تقسيم العمل بين معالجات GPU والمسرّعات المتخصصة. يعالج Vera Rubin NVL72 طبقات الانتباه (وهي تفضل النطاق الترددي العالي)، بينما يتعامل Groq 3 LPX مع طبقات FFN (وهي تتطلب تأخيراً منخفضاً في الجيل المتسلسل). يتم مزامنة ذاكرة KV بينهما رمز واحد في كل مرة. قد يبدو هذا معقداً، لكن النتيجة أن تعمل النظام بدون تنازلات بين السرعة والجودة.

ما تم تحقيقه

400 رموز بالثانية على نماذج MoE بتريليون معامل واحد مع سياق 400K

كفاءة أكثر 35 مرة من حيث النطاق الترددي لكل وات مقارنة مع GB200 NVL72

تأخير قابل للتنبؤ حتى عند تشغيل عدة وكلاء متزامنين

ماذا يعني هذا

بالنسبة لمطوري وكلاء الذكاء الاصطناعي، هذا يعني أن التأخير والقابلية للتوسيع لم يعودا أعداء. تسمح منصة Vera Rubin بنشر نماذج كبيرة (تريليون معامل) وتشغيل وكلاء معقدين فيها دون التضحية بسرعة الاستجابة. في الممارسة العملية، هذا يعني أن المساعدات الشخصية ومحركات الأتمتة والوكلاء العاملين ستتمكن من العمل بسرعة حتى مع السياق الطويل.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية