أطلقت Zyphra أول نموذج انتشار MoE مع تسريع 7.7x
قدمت Zyphra نموذج ZAYA1-8B-Diffusion-Preview، وهو أول نموذج انتشار MoE في التاريخ مُحوَّل من نموذج لغوي عادي. والنتيجة الرئيسية: تسارع الاستدلال بمقدار 7.7x. ون

أطلقت Zyphra نموذج ZAYA1-8B-Diffusion-Preview — أول نموذج انتشار MoE تم تحويله بنجاح من نموذج لغة انحداري. يوضح النموذج أن مثل هذا التحويل ممكن دون فقدان الجودة، بينما يتم تسريع الاستدلال بمعدل 7.7x — قفزة كبيرة للأداء.
ما حدث
عادة، تعمل نماذج اللغة في وضع انحداري: تولد الكلمات بشكل متسلسل، واحدة تلو الأخرى. هذا بطيء لأن كل خطوة تعتمد على السابقة — لا يمكن موازاة المعالجة. أعادت Zyphra تصميم ZAYA — نموذج MoE (مزيج من الخبراء)، الذي يختار شبكات عصبية فرعية مختلفة لمدخلات مختلفة — إلى نموذج انتشار منفصل. في الانتشار، منطق التوليد مختلف تماماً: يأخذ النموذج تمثيلاً مزعجاً وينظفه بشكل متكرر، معالجاً عدة طبقات حسابية بالتوازي. الفكرة ليست جديدة — الانتشار يعمل بشكل جيد للصور والنصوص. لكن إعادة تصميم بنية MoE من نموذج انحداري إلى نموذج انتشار مع الحفاظ على الجودة — هذا شيء لم تتمكن المحاولات السابقة من تحقيقه بهذا النقاء.
لماذا يسرع هذا
يكمن المفتاح في مورد GPU الذي يستخدمه كل وضع. هناك مفهومان مهمان هنا:
- مهام محدودة بنطاق ذاكرة العرض النطاقي: تقرأ الكثير من البيانات من الذاكرة، وتعالج القليل. التوليد الانحداري — مثال كلاسيكي: تحتفظ بالسياق بالكامل، وتعيد تحميله مع كل رمز، وتضيف رمزاً جديداً، وتولد الرمز التالي
- مهام محدودة بالحساب: تقرأ البيانات مرة واحدة، وتعالجها عدة مرات. الانتشار — عدة تكرارات لتنظيف نفس الموتر، يتطلب كل تكرار مرور كامل عبر الشبكة العصبية
- معمارية GPU: تنمو وحدات GPU الحديثة بشكل أسرع في FLOPS (قوة الحسابات) مقارنة بنطاق ذاكرة العرض النطاقي. لديك العديد من نوى الحوسبة، لكنها غالباً ما تنتظر حتى تقدم الذاكرة البيانات
يعني الانتقال من ZAYA من محدود بالذاكرة إلى محدود بالحساب أن نوى الحوسبة في GPU تعمل بشكل أقرب إلى الحمل الأقصى. من هنا التسريع بمعدل 7.7x.
ظلت المقاييس محفوظة
اختبرت Zyphra جودة إصدار الانتشار مقابل ZAYA1-8B الانحداري الأصلي. ظلت الدرجات على نفس المستوى — لم يفقد النموذج قدرته على توليد النص والتعرف على السياق واتباع التعليمات. هذا ليس واضحاً: غالباً عند الانتقال بين النماذج، يتدهور شيء ما. ليس هنا. تعني النتيجة أن نهج الانتشار وبنية MoE متوافقان، والتحويل الجديد لا يدمر المعرفة التي جمعها النموذج أثناء التدريب.
ماذا يعني هذا
تخرج نماذج انتشار MoE من المختبرات لتصبح أدوات عملية. بالنسبة للشركات، هذا يعني: يمكنك أخذ نموذج MoE موجود والحصول على تسريع استدلال بمعدل 7-8x دون إعادة تدريب وبدون وحدات GPU جديدة.