NVIDIA Developer Blog→ المصدر

NVIDIA TensorRT يوسّع الآن استدلال AI التوليدي عبر عدة وحدات GPU

حدّثت NVIDIA منصة TensorRT: إذ يدعم المحرك الآن الاستدلال على عدة وحدات GPU في وقت واحد. وتبقى التحسينات الرئيسية — دمج النوى، وإدارة الذاكرة، والتكميم…

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
NVIDIA TensorRT يوسّع الآن استدلال AI التوليدي عبر عدة وحدات GPU
المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.
◐ استمع للمقال

قامت شركة NVIDIA بتحديث TensorRT، وأضافت دعماً أصلياً للاستدلال على عدة معالجات رسومات في نفس الوقت — يمكن الآن تشغيل نماذج توليدية كبيرة في الإنتاج دون تقسيم يدوي وبدون فقدان التحسينات الرئيسية للمحرك.

لماذا معالج رسومات واحد لم يعد كافياً

تنمو النماذج التوليدية الحديثة أسرع من توسع سعة ذاكرة معالج الرسومات. شبكات الانتشار لتوليد الفيديو، ونماذج اللغة الكبيرة المتعددة الأنماط مع السياق الموسع، والأنابيب المعقدة لمحتوى الوسائط قد تجاوزت منذ وقت طويل 80 جيجابايت — الحد الأعلى لمعالج H100 الرائد. واجه مطورو أنظمة الاستدلال خياراً صارماً: إما تقسيم الرسم البياني الحسابي يدوياً وفقدان تحسينات TensorRT، أو الانتقال إلى أطر عمل من جهات خارجية بإنتاجية أقل.

TensorRT هو المعيار الفعلي لنشر الإنتاج على معدات NVIDIA. يحسّن المحرك الرسوم البيانية الحسابية على مستوى النواة: يدمج العمليات، ويخطط استخدام الذاكرة، ويطبق التكميم — وبذلك يوفر أقل كمون وأعلى إنتاجية بين الخيارات المتاحة. المشكلة كانت أن جميع هذه التحسينات كانت تعمل سابقاً فقط ضمن معالج رسومات واحد.

ما الذي يوفره الاستدلال متعدد الأجهزة

تسمح القدرة الجديدة لـ TensorRT بتوزيع نموذج تلقائياً عبر عدة معالجات رسومات مع الحفاظ على مجموعة كاملة من التحسينات:

  • دمج النوى — دمج العمليات لتقليل التكاليف العامة عند نقل البيانات بين الأجهزة
  • تخطيط الذاكرة — إدارة ذكية لذاكرة الوصول العشوائي بين معالجات الرسومات دون نسخ مفرط للموترات
  • التكميم INT8/FP8 — مطبق على الرسم البياني الحسابي بأكمله كمجموعة واحدة، وليس فقط على الأجزاء الفردية
  • التوازي الموتري — التوزيع التلقائي لأوزان النموذج عبر الأجهزة دون تعديلات يدوية للكود
  • توازي خط الأنابيب — تعمل طبقات شبكة مختلفة بالتوازي على بطاقات مختلفة، مما يزيد الإنتاجية الإجمالية

في السابق، لتحقيق نتائج مماثلة كان يتطلب مزيجاً معقداً من TensorRT مع أدوات خارجية — TensorRT-LLM أو Triton Inference Server — وعدة أسابيع من ضبط الهندسة. الآن دعم متعدد الأجهزة مدمج في المحرك نفسه.

من يستفيد اليوم

ستستفيد الفرق التي تبني خطوط أنابيب استدلال لتوليد محتوى الوسائط أكثر من هذه القدرة الجديدة: أنظمة تحويل النص إلى فيديو، تكييف المحتوى في الوقت الفعلي، الصور الرمزية التفاعلية، المساعدات متعددة الأنماط. تتطلب جميع هذه المهام نماذج كبيرة (أي الكثير من الذاكرة) وكمون أدنى (أي بدون تنازلات في التحسين).

تغير الميزة الجديدة أيضاً اقتصاديات الاستدلال في السحابة. بدلاً من التعامل يدوياً مع تقسيم الأوزان عبر مجموعة معالجات رسومات والحفاظ على منطق تزامن مخصص، يمكن للفرق استخدام واجهة برمجية تطبيقية قياسية لـ TensorRT — والحصول على نفس الأداء بتكاليف تطوير وصيانة أقل.

جدير بالملاحظة بشكل خاص الجزء الأوسط من السوق: الشركات التي لديها معالجات رسومات من اثنين إلى أربعة لكن بدون فريق بنية تحتية للتعلم الآلي مخصص. بالنسبة لهم، إزالة الحاجز أمام الاستدلال متعدد الأجهزة يمثل أكبر تحول عملي.

ماذا يعني هذا

تنتقل عملية قياس استدلال الذكاء الاصطناعي عبر عدة أجهزة من "مهمة للمتخصصين الضيقين" إلى "ميزة مدمجة في المحرك." عندما يتحكم TensorRT في التوزيع، تنخفض المسافة بين نموذج مدرب وخدمة إنتاج قابلة للتطوير بشكل كبير — وهذا يؤثر مباشرة على منتجات الذكاء الاصطناعي التي يمكن للفرق متوسطة الحجم أن تسمح لنفسها بإطلاقها.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…