NVIDIA تسرّع الاستدلال على Blackwell حتى 15 مرة باستخدام DFlash Speculative Decoding
أوضحت NVIDIA كيفية تسريع استدلال نماذج اللغة 15 مرة على وحدات GPU المبنية على معمارية Blackwell. تعمل تقنية DFlash Speculative Decoding على النحو التالي…
معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
نشرت NVIDIA وصفاً تفصيلياً لـ DFlash Speculative Decoding — وهي طريقة استدلال لمعمارية GPU الخاصة بـ Blackwell التي تسرع توليد الرموز (tokens) لنماذج اللغة في السيناريوهات ذات متطلبات تأخير صارمة بمعدل يصل إلى 15 مرة مقارنة بالطريقة القياسية.
مشكلة التوليد المتسلسل
تعمل نماذج اللغة الانحدارية الذاتية (autoregressive) وفقاً لمبدأ بسيط: يتم حساب كل رمز (token) لاحق فقط بعد أن يكون السابق جاهزاً. يعني هذا القيد الأساسي لمعمارية المحول (transformer) أن معالج GPU يقضي معظم الوقت في انتظار انتهاء عملية واحدة قبل الانتقال إلى العملية التالية. لا يتم استخدام القوة الحسابية بشكل متساوٍ، ومعدل إنتاجية النظام يقتصر على هذه الخطوة المتسلسلة. تزداد المشكلة سوءاً عند الانتقال إلى الأنظمة متعددة الوكلاء (multi-agent). عندما يتفاعل عدة وكلاء ذكاء اصطناعي بشكل متسلسل — يطلب أحدهما الآخر، الذي يتوجه إلى الثالث — يتراكم التأخير (latency) لكل استدلال فردي ويصبح سريعاً اختناقاً لكل السلسلة. في سيناريوهات الإنتاج التي تحتوي على آلاف استدعاءات الوكلاء المتزامنة، حتى عبء التأخير الصغير يصبح مشكلة تحجيم خطيرة.
Speculative decoding هي تقنية معروفة للتعامل مع هذا القيد. نموذج مسودة صغير يتنبأ بعدة رموز تالية في وقت واحد، والنموذج الرئيسي الكبير يتحقق من جميعها في دفعة واحدة. إذا تطابقت رموز المسودة — يتم قبولها دون حسابات إضافية. في حالة عدم التطابق، يحدث تراجع، لكن حتى مع الأخذ في الاعتبار إعادة الحساب، معالج GPU يكون محملاً بكثافة أكبر من الخطة المتسلسلة القياسية.
ما يضيفه DFlash
DFlash هو تطبيق محدد للـ speculative decoding محسّن لخصائص الأجهزة في Blackwell. الفرق الرئيسي عن التطبيقات الأخرى: تُبنى الطريقة على أساس Flash Attention — وهي خوارزمية مدمجة بالفعل في معظم أطر عمل LLM الحديثة ولا تتطلب تكوين منفصل من قبل المستخدم.
خصائص الطريقة:
- نوى CUDA متخصصة مكتوبة لنوى الموتّر (tensor cores) الخاصة بـ Blackwell
- التحقق المتوازي من رموز المسودة كدفعة واحدة من عمليات الاهتمام (attention)
- التوافقية مع مكتبات الاستدلال الشهيرة دون إعادة كتابة الكود
- تدهور جودة صفري: ردود النموذج متطابقة إحصائياً مع خط الأساس
- تسريع بمعدل يصل إلى 15 مرة في السيناريوهات ذات السياقات الطويلة والنماذج المسودة الدقيقة
تحذير مهم: 15x هي الحد الأعلى في الظروف المثالية. الأرباح الفعلية تعتمد على دقة نموذج المسودة وطول السياق وأنماط الطلبات. بالنسبة للاستعلامات القصيرة أحادية الدور أو مع نماذج مسودة سيئة الضبط، سيكون التحسن أكثر تواضعاً.
لماذا Blackwell خاص
تحمل معمارية Blackwell عدة تحسينات أجهزة تجعل DFlash فعالاً بشكل خاص. زيادة عرض النطاق الترددي للذاكرة HBM3e تسمح بتحميل أسرع لأوزان كلا النموذجين. تسرع نوى الموتّر الأسرع العمليات الحسابية للمصفوفات المتوازية. يقلل جدول الحسابات المحسّن من النفقات العامة عند الانتقال بين نموذج المسودة والنموذج الرئيسي. عندما يولد نموذج المسودة 4–8 رموز للأمام ويتحقق النموذج الرئيسي من جميعها في دفعة واحدة، تتحول حمولة عمل معالج GPU: من سلسلة متسلسلة ضيقة تصبح عملية متوازية واسعة تتم معمارية Blackwell لها بكفاءة على مستوى الأجهزة.
«مع نمو تعقيد الأنظمة متعددة الوكلاء، تصبح متطلبات التأخير أكثر صرامة.
DFlash هي إحدى الأدوات التي تسمح بالحفاظ على التأخير ضمن حدود معقولة عند التحجيم»، يشرح المؤلفون في مدونة NVIDIA Developer.
ماذا يعني هذا
بالنسبة للفرق التي تبني خدمات LLM الإنتاجية على بطاقات Blackwell، يوفر DFlash خياراً دون مساومة على الجودة: إما تقليل تكاليف GPU بشكل كبير لنفس حجم الحركة، أو خدمة عدد أكبر بكثير من الطلبات على الأجهزة الموجودة. بالنسبة لخطوط أنابيب متعددة الوكلاء، التأثير غير خطي — تقليل التأخير في بداية السلسلة يحقق مكاسب في كل خطوة تالية.
هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟
أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).