NVIDIA Developer Blog→ المصدر

NVIDIA Vera Rubin: كيف سيقوم المطورون بتوسيع ذكاء الوكيل بدون تأخيرات

أطلقت NVIDIA منصة Vera Rubin — منصة متخصصة لذكاء الوكيل عالي السرعة. تجمع المنصة بين معالج GPU Vera Rubin NVL72 ومسرع Groq 3 LPX. على النماذج بتريليون معامل،…

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
NVIDIA Vera Rubin: كيف سيقوم المطورون بتوسيع ذكاء الوكيل بدون تأخيرات
المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدمت NVIDIA منصة Vera Rubin، التي تحل المشكلة الرئيسية في توسيع ذكاء الوكيل — التأخيرات غير المتوقعة في جلسات متعددة الخطوات.

لماذا يكون توسيع ذكاء الوكيل أكثر تعقيداً

يعمل التوسيع التقليدي للنماذج بشكل جيد لمعالجة الدفعات: أرسل الكثير من النصوص، احصل على الكثير من الإجابات. لكن ذكاء الوكيل يعمل بشكل مختلف. يتخذ الوكيل قراراً، ثم ينفذ إجراءً، ينظر إلى النتيجة، ثم يتخذ القرار التالي. هذا يعني مئات الطلبات للنموذج في جلسة واحدة، كل منها بحجم دفعة صغير وضرورة صارمة جداً للسرعة. نظراً لأن مسار الوكيل غير متوقع مسبقاً (الإجراء الذي سيختاره الوكيل غير معروف)، من الصعب ترجمة وتحسين المعالجة. تتراكم التأخيرات، والسياق بـ 400K رموز يصبح نقطة الاختناق.

الحل ثلاثي الطبقات من Vera Rubin

بدلاً من اتباع منهج عام، دمجت NVIDIA ثلاث تقنيات تعمل معاً في المنصة:

  • الاتصالات الكبلية المباشرة بين الرقائق — كل وحدة LPU متصلة بـ 96 وحدة أخرى بسرعة 112 جيجابت/ثانية، مما يوفر 640 تيرابايت/ثانية من النطاق الترددي لكل رف دون الحاجة لمفاتيح شبكة
  • يخطط المترجم جميع عمليات نقل البيانات مسبقاً — بدلاً من القرار أثناء التنفيذ بشأن متى وأين إرسال البيانات، يحسب المترجم مسبقاً كل جزء من المعلومات عبر الشبكة
  • مزامنة آلاف الرقائق المستقلة — تقوم النظام بمحاذاة ساعات مسرّعات LPU بحيث تعمل الشبكة بتأخير معروف وقابل للتنبؤ

التسريع الهجين: NVIDIA + Groq

تستخدم المنصة تقسيم العمل بين معالجات GPU والمسرّعات المتخصصة. يعالج Vera Rubin NVL72 طبقات الانتباه (وهي تفضل النطاق الترددي العالي)، بينما يتعامل Groq 3 LPX مع طبقات FFN (وهي تتطلب تأخيراً منخفضاً في الجيل المتسلسل). يتم مزامنة ذاكرة KV بينهما رمز واحد في كل مرة. قد يبدو هذا معقداً، لكن النتيجة أن تعمل النظام بدون تنازلات بين السرعة والجودة.

ما تم تحقيقه

  • 400 رموز بالثانية على نماذج MoE بتريليون معامل واحد مع سياق 400K
  • كفاءة أكثر 35 مرة من حيث النطاق الترددي لكل وات مقارنة مع GB200 NVL72
  • تأخير قابل للتنبؤ حتى عند تشغيل عدة وكلاء متزامنين

ماذا يعني هذا

بالنسبة لمطوري وكلاء الذكاء الاصطناعي، هذا يعني أن التأخير والقابلية للتوسيع لم يعودا أعداء. تسمح منصة Vera Rubin بنشر نماذج كبيرة (تريليون معامل) وتشغيل وكلاء معقدين فيها دون التضحية بسرعة الاستجابة. في الممارسة العملية، هذا يعني أن المساعدات الشخصية ومحركات الأتمتة والوكلاء العاملين ستتمكن من العمل بسرعة حتى مع السياق الطويل.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…