MarkTechPost→ المصدر

Google DeepMind تطلق DiffusionGemma — نموذج MoE مفتوح بحجم 26B مع توليد أسرع 4 مرات

أطلقت Google DeepMind النموذج التجريبي المفتوح DiffusionGemma، وهو MoE بعدد 26 مليار معلمة يولّد النص عبر الانتشار بدلًا من الانحدار الذاتي خطوة بخطوة. وعلى…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
Google DeepMind تطلق DiffusionGemma — نموذج MoE مفتوح بحجم 26B مع توليد أسرع 4 مرات
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت Google DeepMind نموذج DiffusionGemma — وهو نموذج لغة تجريبي مفتوح المصدر يحتوي على 26 مليار معامل، يستخدم انتشار النصوص بدلاً من الجيل الانحداري التقليدي. على وحدات معالجة الرسومات، يعمل بسرعة تصل إلى أربع مرات أسرع من الأساليب القياسية.

ما هو انتشار النصوص؟

تقوم معظم نماذج اللغة الحديثة بإنشاء نصوص رمز تلو الآخر من اليسار إلى اليمين — هذه هي الطريقة التي تعمل بها GPT-4 و Gemini و Llama وعملياً جميع نماذج اللغات الكبيرة. هذا موثوق وقد تمت دراسته جيداً، لكن هذا الأسلوب له قيد أساسي: تعتمد سرعة الاستدلال خطياً على طول الإجابة. كلما طال النص، طالت فترة الانتظار، زادت تكاليف وحدات معالجة الرسومات.

يعمل DiffusionGemma بطريقة مختلفة. يبدأ النموذج بإخراج مزعج أو مقنع ويحسّنه تكراراً حتى ينبثق نص متماسك — بشكل مشابه لكيفية إنشاء نماذج الانتشار مثل Stable Diffusion للصور. الفرق الرئيسي عن الانحدار التلقائي هو التوازي: بدلاً من تسلسل صارم، يمكن لمفكك ترميز الانتشار العمل على السياق بأكمله في نفس الوقت. وهذا ما يوفر الكسب السرعة المضاعف على وحدات معالجة الرسومات الحديثة.

تمت متابعة أبحاث انتشار النصوص لعدة سنوات، لكن النماذج مفتوحة المصدر على نطاق واسع من هذه الفئة كانت نادرة. DiffusionGemma هو أحد أول التجارب العامة الجادة بهذا الحجم من مختبر كبير، ويستحق الاهتمام لهذا السبب وحده.

البنية المعمارية: 26B مع MoE

يتم بناء DiffusionGemma على بنية Mixture of Experts (MoE). على عكس النماذج "الكثيفة" حيث يتم تفعيل جميع المعاملات في كل طلب، يقوم MoE فقط بتفعيل مجموعة فرعية من كتل الخبراء — اعتماداً على بيانات الإدخال. هذا يسمح بعدد كبير من المعاملات بتكلفة حسابية منخفضة نسبياً أثناء الاستدلال.

الخصائص الرئيسية للنموذج:

  • 26B المعاملات إجمالاً (بنية MoE)
  • يتم تفعيل جزء فقط من المعاملات أثناء الاستدلال
  • انتشار النصوص بدلاً من الانحدار التلقائي
  • تسريع يصل إلى 4× في الإنشاء على وحدات معالجة الرسومات
  • الوصول المفتوح للباحثين
  • الحالة التجريبية — وليس إصدار منتج

الجمع بين MoE والانتشار هو رهان معماري غير بديهي. يقلل MoE من العبء الناشئ عن عدد المعاملات المفعلة، بينما يقلل الانتشار من عدد خطوات الإنشاء. في النظرية، كلا التحسينين يعملان معاً.

لماذا هذا يغير الوضع

سرعة الاستدلال هي واحدة من أكبر التحديات العملية لنماذج اللغات الكبيرة. بالنسبة للمستخدمين النهائيين، الإجابات البطيئة محبطة. بالنسبة لمقدمي خدمات الاستدلال، فهذا يعني تكاليف مباشرة لوقت وحدات معالجة الرسومات التي تؤثر مباشرة على هوامش الخدمة. الحلول الحالية — الكميات، فك التشفير التكهني، النوى المحسنة — توفر تسريعات حول 1.5–2×. يؤكد DiffusionGemma على 4×، من خلال آلية إنشاء مختلفة بشكل أساسي. إذا استمر هذا في الظروف الحقيقية، فنحن نتحدث عن تحول نموذجي، وليس تحسيناً.

تقوم Google DeepMind بإصدار النموذج في وصول مفتوح كقطعة بحثية. هذا يمنح المجتمع الأكاديمي فرصة لدراسة مفكك ترميز نص انتشار بحجم 26B. لا تزال مسألة إصدار منتج بناءً على هذه الهندسة المعمارية مفتوحة.

ماذا يعني هذا

DiffusionGemma هو إشارة إلى أن الانحدار التلقائي يتوقف عن كونه النموذج الوحيد الواقعي لنمذجة اللغة. إذا كان نهج الانتشار يتسع بدون تدهور جودة، فيمكن أن تزيد سرعة استجابة أدوات الذكاء الاصطناعي بشكل مضاعف — بدون نمو متناسب في تكاليف البنية الأساسية. يستحق متابعة تحقيق المجتمع وحياكة النموذج في الأشهر القادمة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…