AWS Machine Learning Blog→ المصدر

Amazon SageMaker AI تضيف دعماً لـ P-EAGLE لتسريع استدلال نماذج LLM بشكل متوازٍ

أضافت AWS تقنية P-EAGLE إلى Amazon SageMaker AI، وهي طريقة لفك الترميز التخميني المتوازي تُسرّع استدلال نماذج LLM بمقدار 2 إلى 3 مرات من دون فقدان الجودة…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
Amazon SageMaker AI تضيف دعماً لـ P-EAGLE لتسريع استدلال نماذج LLM بشكل متوازٍ
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

أضافت أمازون SageMaker AI دعماً لـ P-EAGLE — وهي طريقة فك ترميز تخميني متوازي تسرّع الاستدلال في الوقت الفعلي لنماذج اللغة الكبيرة بمقدار 2–3× أسرع دون تدهور جودة الإخراج. دمجت AWS التكنولوجيا مباشرة في SageMaker JumpStart: بضعة أسطر من الإعدادات — ونقطة نهاية محسّنة جاهزة للإنتاج.

لماذا الاستدلال هو الاختناق

تُنشئ نماذج اللغة الكبيرة النصوص بصرامة بشكل متسلسل: كل رمز جديد يتطلب مسار كامل من خلال جميع طبقات محول البيانات. حتى على وحدات GPU الرائدة مثل A100 أو H100، فإن هذا يخلق اختناقاً خطيراً — بين إصدار الرموز، تبقى نوى الحوسبة معطلة في انتظار التكرار التالي. تنمو الكمون خطياً مع طول الإخراج.

بالنسبة لأنظمة الإنتاج ذات متطلبات الاستجابة في الوقت الفعلي — محادثات البوت، إكمال الكود، وكلاء الذكاء الاصطناعي — يؤثر هذا مباشرة على تجربة المستخدم وتكلفة البنية التحتية. بحلول عام 2026، أصبحت تحسين الاستدلال مهمة بنفس أهمية اختيار النموذج نفسه: تكلفة الحوسبة لكل طلب تحدد مباشرة ربحية منتج الذكاء الاصطناعي.

يوفر فك الترميز التخميني طريقة بديلة: يتنبأ نموذج "مسودة" صغير في تمريرة سريعة واحدة برموز عديدة قادمة، بينما يتحقق النموذج الكبير الرئيسي من الدفعة بأكملها بالتوازي. إذا خمّنت المسودة بشكل صحيح — قبول عدة رموز مرة واحدة. خطأ — العودة إلى واحد. كلما زادت نسبة التخمينات الصحيحة، كانت الإنشاء النهائي أسرع.

حسّن EAGLE هذا النظام: يتم تدريب مكون المسودة مباشرة على الحالات الخفية للنموذج الرئيسي، مما يزيد بشكل كبير من دقة التنبؤ دون زيادة الكمون.

ما الذي يجعل P-EAGLE مختلفاً

P-EAGLE — Parallel EAGLE — هو المستوى التالي: بدلاً من مسودة واحدة، تعمل عدة فروع تنبؤ متوازية بشكل متزامن، مما يشكل شجرة مرشحين. يتحقق النموذج الرئيسي من جميع الفروع في تمريرة واحدة. هذا ليس مجرد تسارع — إنه تغيير في هندسة الحساب.

  • معدل قبول أعلى: احتمالية تخمين التسلسل الصحيح أعلى بكثير مع عدة فروع متوازية مقابل واحد
  • استخدام GPU أفضل: تُملأ نوى الحوسبة المجانية بفروع المسودة بدلاً من الجمود
  • time-to-first-token أقل: تصل الاستجابة الأولى بشكل أسرع — حيوي لواجهات الدردشة والوكلاء
  • توافق مع الكمية: INT4/INT8 يعمل دون تعديلات إضافية للمسودة
  • معدل نقل متوقع: يصبح القياس مع حجم الدفعة أكثر خطية تحت الحمل العالي

وفقاً لبيانات AWS، في مهام التلخيص وتوليد الأكواد والإجابة على الأسئلة، تقدم الطريقة تسارعاً بمقدار 2–3× بنفس الجودة. التأثير الأكبر — في المهام ذات الإخراج الطويل: تلخيص المستندات، توليد JSON منظم، الحوارات متعددة الأدوار.

النشر على SageMaker AI

صممت AWS التكامل مع احتكاك دخول ضئيل. أولاً، حدد نموذجاً من فهرس SageMaker JumpStart — نماذج لغة مسبقة التدريب مع دعم إعدادات P-EAGLE، بدون الحاجة إلى البحث يدوياً عن نموذج مسودة متوافق. بعد ذلك، أضف كتلة `parallel_drafting_spec` إلى إعدادات نقطة النهاية — JSON يحتوي على عدد الأشجار المتوازية وعمق التنبؤ. توصي AWS ببدء القيم الافتراضية والتعديل حسب نمط الطلب المحدد. في الخطوة الأخيرة، انشر نقطة نهاية SageMaker في الوقت الفعلي القياسية مع علامة تفعيل P-EAGLE. يتم التعامل مع توازن الحمل والمراقبة والقياس التلقائي — من قبل البنية التحتية.

"يسمح P-EAGLE بتسريع time-to-first-token وعدد نقل البيانات دون أي تغييرات في منطق التطبيق"، — من توثيق AWS

Machine Learning Blog.

ما الذي يعنيه هذا

بالنسبة لفرق ML على AWS، P-EAGLE هو أداة محددة لتقليل تكاليف الاستدلال دون تغيير النموذج أو الحالة. نفس النموذج، نفس الحالة — لكن 2–3× طلبات أكثر في الثانية. أو نفس الطلبات مع عدد حالات أقل. في السحابة، حيث تنمو فواتير الاستدلال بشكل أسرع من أداء النماذج نفسها، يؤثر هذا النمو بشكل مباشر على اقتصاديات الوحدة للمنتج والقدرة التنافسية لخدمة الذكاء الاصطناعي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

ما رأيك؟
جارٍ تحميل التعليقات…