AWS Machine Learning Blog→ المصدر

دمجت AWS وvLLM تقنية P-EAGLE لتسريع استدلال نماذج LLM الكبيرة حتى 1.69 مرة

أضافت AWS وvLLM تقنية P-EAGLE، وهي نسخة متوازية من speculative decoding لتسريع استدلال نماذج LLM. وبدلاً من توليد draft tokens بشكل متسلسل، تنجز الطريقة ذلك…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
دمجت AWS وvLLM تقنية P-EAGLE لتسريع استدلال نماذج LLM الكبيرة حتى 1.69 مرة
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

أظهرت AWS وفريق vLLM نموذج P-EAGLE — طريقة جديدة لتسريع استدلال نماذج اللغات الكبيرة دون تغيير النموذج الأساسي. تم دمج هذا النهج بالفعل في vLLM، وفي الاختبارات باستخدام GPT-OSS 20B حقق إنتاجية أكبر بمقدار 1.69× مقارنة مع EAGLE-3 القياسي.

أين كان الاختناق

يُعتبر الفك التخميني للرموز منذ فترة طويلة من أكثر الطرق العملية لتسريع نماذج اللغات الكبيرة أثناء الاستدلال. الفكرة هي أن نموذجاً مساعداً يقترح عدة رموز تالية مقدماً، بينما يتحقق النموذج الرئيسي بسرعة من الرموز التي يمكن قبولها. كانت طريقة EAGLE توفر بالفعل تحسناً ملحوظاً وتم استخدامها في vLLM وSGLang وTensorRT-LLM.

لكنها كانت تواجه مشكلة مهمة: لإنشاء K رموز مسودة، كان على نماذج المسودة تنفيذ K عمليات forward متتالية. كلما زاد عمق التخمين، زادت الزمن الكامن للمسودة نفسها. لهذا السبب، وصل EAGLE التقليدي إلى سقف مخفي.

من حيث المبدأ، كان المرغوب به التخمين بعمق أكبر وقبول المزيد من الرموز لكل جولة، لكن في الواقع العملي بدأ العمل الإضافي لنموذج المسودة يأكل من الفائدة. يزيل مؤلفو P-EAGLE بالضبط هذا التقييد: يتم توليد جميع رموز المسودة الـ K في عملية forward واحدة. وهذا يحول التوازن نحو تخمين أكثر عدوانية، خاصة على الإجابات الطويلة وعمليات البرمجة، حيث تكون كل عملية متتالية إضافية ملحوظة في الزمن الكامن والإنتاجية.

كيف يعمل P-EAGLE

معمارية P-EAGLE بمرحلتين. أولاً، يعالج النموذج الهدف طلب الإدخال ويتنبأ، كالمعتاد، بالرمز التالي. في الوقت نفسه، يحفظ النظام الحالات المخفية الداخلية لمواضع طلب الإدخال والرمز الجديد.

ثم يجمع جهاز المسودة المدخلات لجميع المواضع المستقبلية بالتوازي: بالنسبة للأجزاء المعروفة بالفعل من السلسلة، يستخدم الدمجات الحقيقية والحالات المخفية، بينما للمواضع التي لم توجد بعد يستبدل أقنعة قابلة للتدريب وموجه مخفي مشترك. بعد ذلك، يتم التنبؤ برموز مستقبلية عديدة في عملية forward واحدة، وليس سلسلة من عدة خطوات. التعقيد المنفصل هو التدريب على السلاسل الطويلة.

تلاحظ AWS أنه بالنسبة لـ GPT-OSS 120B على UltraChat، وصل الطول الوسيط للسلسلة مع طلب الإدخال والتوليد إلى 3891 رمزاً، والنسبة المئوية الـ 90 وصلت إلى 10800 رموز. مع فك التشفير المسودة المتوازي، تنمو الذاكرة بسرعة كبيرة، لأن عدد المواضع يصبح N × K. لهذا الغرض، أضاف المؤلفون خوارزمية تقسيم السلسلة: تقسم سلسلة واحدة طويلة إلى أجزاء متصلة، تحافظ على التبعيات الاهتمام الصحيحة بينها، وتسمح بتجميع التدرجات داخل مثال واحد، وليس فقط بين الدفعات المختلفة.

التكامل والأرقام

لم تقتصر الجزء العملي على الورقة البحثية: تم إضافة P-EAGLE بالفعل إلى vLLM ابتداءً من الإصدار 0.16.0. لتفعيله، ما عليك سوى استخدام فك التشفير التخميني مع العلم parallel_drafting: true وتوصيل رأس مسودة متوافق.

أصدرت AWS بالفعل نقاط تفتيش جاهزة لـ GPT-OSS 120B و GPT-OSS 20B و Qwen3-Coder 30B، بحيث يمكن تجربة التكنولوجيا دون التدريب من الصفر.

  • ظهر التكامل في vLLM ابتداءً من الإصدار 0.16.0
  • يتم تفعيل الوضع عبر العلم parallel_drafting: true
  • نماذج رأس P-EAGLE الجاهزة متاحة لـ GPT-OSS 120B و GPT-OSS 20B و Qwen3-Coder 30B
  • على NVIDIA B200، تراوح التحسن على EAGLE-3 القياسي بين 1.05× و1.69×
  • تم تحقيق أفضل إنتاجية P-EAGLE في الاختبارات عند عمق التخمين K=7

يبدو منظر المعايير متسقاً. على MT-Bench و HumanEval و SPEED-Bench، أظهرت الطريقة الجديدة تحسناً بنسبة 55–69٪ تحت مستويات التنافس المنخفضة والحفاظ على كسب بنسبة 5–25٪ حتى تحت الحمل العالي. بالإضافة إلى السرعة، تحسنت أيضاً طول القبول — متوسط عدد الرموز المسودة المقبولة من قبل المدقق لكل جولة. على سبيل المثال، عند K=7 على HumanEval، حصل P-EAGLE على 3.94 مقابل 3.03 لـ EAGLE-3، وعلى SPEED-Bench — 3.38 مقابل 2.59. تلاحظ AWS بشكل خاص أن تشغيل GPT-OSS 20B مع EAGLE-drafter يتطلب حالياً ترقيعة سطر واحد في vLLM، والتي يجب تضمينها في أحد الإصدارات القادمة.

ماذا يعني هذا

بالنسبة للفرق التي تستخدم بالفعل vLLM في الإنتاج، يبدو P-EAGLE كتحسن نادر دون إعادة بناء كاملة للمكدس: المخطط الجديد مدمج في وقت التشغيل المألوف ويتم تفعيله بواسطة التكوين بالإضافة إلى نقطة تفتيش متوافقة. إذا حصل النظام البيئي بسرعة على المزيد من نماذج المسودة المدربة بالتوازي، فإن هذا المتغير من فك التشفير التخميني يمكن أن يصبح المعيار الجديد للاستدلال السريع والاقتصادي لنماذج اللغات الكبيرة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…