ستانفورد تعرض رقاقة Onyx لـ AI المتناثر: أسرع 8 مرات من المعالج و70 مرة أكثر كفاءة
كشفت جامعة ستانفورد عن Onyx، معجّل قابل للبرمجة لعمليات AI المتناثرة. الرقاقة لا تهدر الموارد على العمليات الصفرية، مما يحقق أداءً أسرع بحوالي 8 مرات من وحدة…
معالج بواسطة الذكاء الاصطناعي من IEEE Spectrum AI؛ بتحرير Hamidun News
قدم الباحثون في جامعة ستانفورد معجل Onyx، الذي يمكنه استخراج فوائد من "الأصفار" داخل نماذج الذكاء الاصطناعي. الفكرة هي عدم إهدار الطاقة في عمليات الضرب والجمع التي لا تغير أي شيء مقدماً، وبالتالي تسريع الحسابات دون التخلي عن النماذج الكبيرة.
لماذا الأصفار مهمة
في الشبكات العصبية، يتم تخزين البيانات والأوزان والتفعيلات كمصفوفات من الأرقام — متجهات ومصفوفات وموترات. في كثير من الحالات، جزء كبير من هذه الأرقام يساوي صفراً أو قريب جداً من الصفر بحيث يمكن اعتباره صفراً دون فقدان ملحوظ للجودة. تسمى هذه الخاصية بالتفرق.
إذا كان أكثر من النصف عبارة عن أصفار، يمكن للنموذج بالفعل أن يستفيد من خوارزميات متخصصة: بدلاً من تخزين ومعالجة المصفوفة بأكملها، يحفظ النظام فقط القيم المفيدة ويتخطى العمليات الفارغة. بالنسبة للصناعة هذا مهم لأن النماذج تنمو بشكل أسرع مما تصبح البنية الأساسية أرخص. كلما زاد عدد المعاملات، كانت الجودة أعلى، لكن أيضاً كان التشغيل أكثر تكلفة من حيث الوقت والطاقة والبصمة الكربونية.
تقدم المقالة مثالاً على Meta Llama بـ 2 تريليون معامل. كما يذكر الباحثون نتائج Cerebras: في Llama 7B تمكنوا من إلغاء 70–80 في المائة من المعاملات دون فقدان الدقة. هذا يعني أنه بداخل النماذج الكبيرة يوجد بالفعل احتياطي مخفي للتسريع — يحتاج فقط إلى تعلم كيفية استخدامه.
حيث تضيع الكفاءة
المشكلة أن الأجهزة الشهيرة تم بناؤها منذ البداية للحسابات الكثيفة، وليس للهياكل المتفرقة. عندما يتم ضغط البيانات، يجب تخزين البيانات الوصفية مع القيم غير الصفرية — مؤشرات الصفوف ومؤشرات الأعمدة والقطاعات. يصبح الوصول إلى هذه البيانات غير مباشر وغير متوقع: يجب على المعالج أولاً العثور على الإحداثيات، ثم القيمة نفسها. نتيجة لذلك، ينقضي جزء من الوقت ليس على الرياضيات، بل على التجول في الذاكرة والعمليات الخدمية.
- تتفوق وحدات معالجة الرسومات على المصفوفات الكثيفة، لكن مع التفرق العشوائي غالباً ما تقوم بمعالجة متوازية لعمليات عديمة الفائدة مع الأصفار.
- التفرق المنظم لا يساعد دائماً، لأنه يتطلب نمط إلغاء صارم، على سبيل المثال صفرين من كل أربعة معاملات متجاورة.
- وحدات المعالجة المركزية أكثر مرونة، لكن غالباً ما تصطدم بأخطاء المسبقة والوصول غير المتوقع للذاكرة.
- حتى مكتبات التفرق لا تقلل جميع النفقات العامة، لأن بعض الموارد تذهب لصيانة البيانات نفسها.
يبحث المصنعون بالفعل عن حلول بديلة، لكن حالياً هي موضعية فقط. عجلت Apple الوصول غير المباشر للذاكرة في شرائح A14 و M1، و Cerebras تعزز النهج المتفرق في محرك Wafer Scale Engine الخاص بها، و Meta تطور MTIA. لكن هناك قيود أيضاً: بعض الحلول تعمل فقط مع تفرق الأوزان، وأخرى تكشف الدعم فقط للعمليات الفردية مثل ضرب المصفوفات. بالنسبة لأحمال الذكاء الاصطناعي الفعلية هذا غير كافٍ، لأن النماذج لا تتكون من عملية واحدة، بل من سلسلة طويلة من الطبقات والتحويلات المختلفة.
كيف تم بناء Onyx
انطلق فريق ستانفورد من الصفر وأنشأ Onyx — معجل قابل للبرمجة يمكنه العمل بنفس الكفاءة مع الحسابات المتفرقة والكثيفة. في قلبه توجد معمارية CGRA، وهي خيار وسيط بين CPU و FPGA: فهي أكثر مرونة بكثير من المعالج الكلاسيكي، وفي نفس الوقت أكثر كفاءة من الدوائر التي يمكن تكوينها بالكامل على مستوى البت. يتكون Onyx من كتل حسابية وكتل ذاكرة، التي تخزن المصفوفات المضغوطة وتعالجها فوراً بهذه الصيغة، دون فك ضغطها إلى صيغة كثيفة إلا إذا لزم الأمر.
المترجم مهم بشكل خاص: فهو يترجم التعبيرات مثل ضرب مصفوفة متفرقة في متجه إلى رسم بياني للذاكرة والحسابات، ثم يوزعه على كتل الشريحة. وفقاً لبيانات ستانفورد، استهلكت Onyx في المتوسط طاقة أقل بمقدار 70 مرة من CPU وأجرت الحسابات بسرعة أسرع بحوالي 8 مرات. بمقياس منتج تأخير الطاقة، وصل الكسب إلى 565 مرة بالنسبة لمعالج Intel Xeon بـ 12 نواة مع مكتبات التفرق.
يجب أن تضيف الجيل التالي من Onyx الدعم للطبقات غير الخطية والتطبيع و softmax والتبديل الأكثر ملاءمة بين أوضاع التفرق والكثافة.
ماذا يعني هذا
الفكرة الرئيسية للمقالة ليست أن شريحة ذكاء اصطناعي أخرى قد ظهرت، بل أن المطورين يبدأون بتحسين النماذج ليس فقط بتقليل الدقة أو الحجم، بل أيضاً بهيكل الحسابات نفسها. إذا ترسخ النهج المتفرق، يمكن تشغيل النماذج الكبيرة بتكاليف أقل وأسرع، مما يعني أن القفزة التالية في الذكاء الاصطناعي قد تأتي ليس فقط من نماذج جديدة، بل أيضاً من فئة جديدة من الأجهزة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.