DeepMind وتعدين دوال التنشيط: لماذا ReLU يستحق التقاعد
لعقود من الزمان، عشنا في عالم حيث كانت دالة التفعيل ReLU معياراً لا يقبل النقاش. كانت بسيطة مثل الطوب، وفعالة تماماً بما يكفي لعدم التدخل في عملية تعلم…
معالج بواسطة الذكاء الاصطناعي من Jiqizhixin (机器之心)؛ بتحرير Hamidun News
لعقود من الزمان، عشنا في عالم حيث كانت دالة التفعيل ReLU معياراً لا يقبل النقاش. كانت بسيطة مثل الطوب، وفعالة تماماً بما يكفي لعدم التدخل في عملية تعلم الشبكات العصبية. لكن لنكن صرحاء: ReLU (Rectified Linear Unit) أصبحت شهيرة ليس لأنها مثالية، بل لأننا في عام 2012 لم نكن نملك الموارد لتجربة شيء أكثر تعقيداً.
الآن قررت DeepMind أن الوقت قد حان للتوقف عن التخمين وحولت البحث عن الصيغ الرياضية إلى تعدين صناعي حقيقي. بنى فريق الباحثين ما يسمونه "منجماً حسابياً." الفكرة بسيطة وفي الوقت ذاته جنونية: إذا لم نكن نعرف أي دالة رياضية هي الأفضل للتعلم العميق، فلنختبرها جميعاً.
هذه هي طريقة القوة الغاشمة الكلاسيكية، مدفوعة إلى حدها الأقصى. بدلاً من جعل علماء الرياضيات يقضون سنوات في اشتقاق البراهين الأنيقة، ألقت DeepMind آلاف معالجات الرسومات على المهمة لـ "استخراج" الخوارزمية المثالية. لماذا يحدث هذا الآن؟ وصل سوق نماذج اللغة الكبيرة إلى حد الكفاءة.
نستمر في زيادة عدد المعاملات، لكن اللبنات الأساسية للنماذج تكاد لا تتغير. أدركت DeepMind أن حتى ربح كفاءة ضئيل جداً على مستوى دالة التفعيل، عند تطبيقه على GPT-4 أو Gemini، يوفر ملايين الدولارات في الكهرباء وأسابيع من وقت التدريب. هذا ليس مجرد اهتمام أكاديمي، بل هو اقتصاد بحت.
خلال عملية "التعدين" الخاصة بهم، اختبرت النظام ملايين مجموعات العمليات الرياضية. كان الباحثون يبحثون عن دوال لا تظهر فقط دقة عالية على الورق، بل تتعامل أيضاً بشكل جيد مع الأجهزة الحديثة. اتضح أن العديد من الدوال القوية نظرياً معقدة جداً لعمليات الحساب على معالجات الرسومات، مما يجعلها عديمة الفائدة في الإنتاج الفعلي.
بحثت DeepMind عن الحل الوسط—البساطة الحسابية والمرونة الرياضية. النتائج مثيرة للإعجاب. الدوال المكتشفة تفوق ليس فقط ReLU القديمة الموثوقة، بل أيضاً بدائل أحدث مثل Swish أو GeLU.
الشيء الأكثر إثارة للاهتمام هنا هو تحول النموذج الفكري. ننتقل من عصر "الأشخاص الأذكياء الذين يخترعون الخوارزميات" إلى عصر "الأنظمة الذكية التي تزرع الخوارزميات." هذا هو التعلم الآلي التلقائي الحقيقي، الذي كنا نحلم به لمدة خمس سنوات، لكنه وصل الآن إلى أساس الاتصالات العصبية ذاته.
ماذا يعني هذا للصناعة؟ على الأرجح، في الجيل التالي من نماذج اللغة الكبيرة سنرى هندسات معمارية ستبدو غريبة لنا. ستستخدم دوالاً لن يشتقها أي شخص عاقل على اللوحة البيضاء، لأنها لا تبدو "جميلة" من وجهة نظر التحليل الرياضي الكلاسيكي. لكنها ستعمل.
وستعمل أسرع من أي شيء رأيناه من قبل. النقطة الأساسية: أظهرت DeepMind بوضوح أن "حمى الذهب" في الذكاء الاصطناعي تنتقل من مجال مجموعات البيانات الضخمة إلى مجال إعادة اختراع الرياضيات الأساسية. إذا كنت تعتقد أن أسس التعلم العميق كانت مسمنة بالفعل، استعد—إنهم يهدمونها الآن بجهاز كسح الطرق.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.