EAGLE 3.1: كيفية إصلاح عدم استقرار الفك التخميني في نماذج اللغة الكبيرة
صدرت EAGLE 3.1 بشكل مشترك من فريق EAGLE و vLLM و TorchSpec. تحل الخوارزمية الجديدة للفك التخميني مشكلة عدم الاستقرار في الاستدلال الإنتاجي لنماذج اللغة…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
تم إطلاق EAGLE 3.1 بشكل مشترك من قبل فرق EAGLE و vLLM و TorchSpec. تحل النسخة الجديدة من خوارزمية الفك التخميني مشكلة عدم استقرار حرجة كانت تحدث عند الاستدلال في نماذج اللغة الكبيرة في بيئة الإنتاج.
كيف يعمل الفك التخميني
الفك التخميني هو تقنية لتسريع الاستدلال في نماذج اللغة الكبيرة. بدلاً من توليد الرموز واحداً تلو الآخر بشكل متسلسل، تتنبأ الخوارزمية برموز عديدة قادمة في نفس الوقت، وتتحقق منها النموذج الأساسي بالتوازي من خلال عملية المرور الأمامي. هذا يسمح بتجنب الاستدعاءات غير الضرورية لوحدة معالجة الرسومات وتسريع توليد الإجابات بشكل كبير.
EAGLE (خوارزمية الاستيفاء لتحسين كفاءة نماذج اللغة) متخصصة في التنبؤ برموز متعددة بالتوازي باستخدام نموذج مساعد صغير. هذا النهج معروف منذ فترة طويلة، لكن في أنظمة الإنتاج الحقيقية ذات الدفعات الكبيرة والسياقات الطويلة، كانت هناك مشاكل في الموثوقية.
مشكلة انجراف الانتباه
المشكلة الرئيسية في EAGLE 3.0 والإصدارات السابقة هي انجراف الانتباه. عندما تتنبأ النموذج المساعد برموز متتالية، تبدأ الحسابات الداخلية لآلية الانتباه (الجزء الأكثر أهمية في المحول) في الانحراف عن السلوك الفعلي للنموذج الأساسي. يتراكم هذا، وفي النهاية ينخفض جودة التنبؤات.
في الممارسة العملية، تجلى هذا على النحو التالي:
- انخفاض مفاجئ في جودة الرموز المُولّدة في التسلسلات الطويلة
- عدم استقرار مع أحجام دفعات كبيرة (>32)
- أعطال دورية في الإنتاج تتطلب الرجوع إلى طرق بطيئة لكن موثوقة
- زيادة التأخير بسبب التدابير التعويضية ومنطق الرجوع للخيار البديل
كيف يصحح EAGLE 3.1 هذا
يحتوي EAGLE 3.1 على آلية معايرة محسّنة لأوزان الانتباه. تقوم الخوارزمية الآن بمزامنة حالاتها الداخلية بشكل دوري مع النموذج الأساسي، مما يمنع تراكم الأخطاء. بدلاً من مجرد التنبؤ برموز، يقوم EAGLE 3.1 بتتبع الانحرافات في آلية الانتباه بفعالية ويصححها أثناء التنفيذ.
التحسينات الرئيسية:
- استقرار أوزان الانتباه من خلال التحقق الدوري مع النموذج الأساسي
- التصحيح التكيفي للرموز المتنبأ بها بناءً على درجة ثقتها
- معالجة محسّنة للرموز النادرة والحالات الحدية
- قابلية توسع أفضل للدفعات بأحجام من 1 إلى 512
يرافق الإصدار تحديثات لـ vLLM (إطار عمل الاستدلال الشهير) و TorchSpec (معيار الفك التخميني). أضافت الفرق أيضاً وضع التوافق العكسي حتى تتمكن أنظمة الإنتاج الموجودة من التحديث تدريجياً.
النتائج في الإنتاج
تظهر نتائج الاختبار:
- تسريع الاستدلال بنسبة 20-30% في السيناريوهات القياسية
- الاستقرار في جميع أحجام السياق (حتى 128K رموز)
- التوافقية مع التكميم (4-بت، 8-بت)
- دعم الاستدلال متعدد المستخدمين على وحدة معالجة رسومات واحدة
ماذا يعني هذا
EAGLE 3.1 خطوة عملية نحو جعل الفك التخميني أداة موثوقة لنماذج اللغة الكبيرة في الإنتاج. في السابق، كان بمثابة تسريع تجريبي يُستخدم في ظروف مراقبة. الآن يمكن لمهندسي التعلم الآلي نشره في الأنظمة الفعلية بدون قلق.
بالنسبة للشركات التي تشغل مجموعات استدلال كبيرة لنماذج اللغة (OpenAI و Anthropic و AWS و Google)، هذا يعني إما إجابات أسرع للمستخدمين (تقليل التأخير بنسبة 20-30%) أو تقليل نفقات وحدات معالجة الرسومات (هناك حاجة إلى قوة حوسبة أقل لنفس الإنتاجية). كلا الخيارين يمثل ميزة تنافسية.
بالنسبة للنماذج المفتوحة (Llama و Mistral)، هذا يعني أن استدلالها يمكن أن يصبح أكثر تنافسية من الخدمات الملكية ببساطة من خلال خوارزمية فك تخميني أفضل.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.