Миллиарды параметрعنفي: как мы منмеряем интеллект في цифрах
في كل مرة يحدث إطلاق كبير للذكاء الاصطناعي في الصناعة، يبدو السؤال الأول في التعليقات متطابقاً: "كم عدد المعاملات التي تحتويها؟" لقد أصبح هذا نوعاً من مقياس…
معالج بواسطة الذكاء الاصطناعي من KDnuggets؛ بتحرير Hamidun News
في كل مرة يحدث إطلاق كبير للذكاء الاصطناعي في الصناعة، يبدو السؤال الأول في التعليقات متطابقاً: "كم عدد المعاملات التي تحتويها؟" لقد أصبح هذا نوعاً من مقياس التطور، معادل لقوة الحصان في عالم محركات الاحتراق الداخلي. اعتدنا على أرقام مثل 7 أو 70 أو حتى 175 مليار، لكننا نادراً ما نتساءل عما تعنيه بالضبط. إذا تجاهلنا الدعاية التسويقية، فإن المعامل ليس سوى رقم.
لكن من هذه الأرقام ينسج نسيج التعلم الآلي الحديث. لفهم الجوهر، تخيل لوحة تحكم عملاقة بها مليارات الأزرار والمفاتيح. كل مفتاح من هذه المفاتيح هو معامل.
عندما يتم إنشاء نموذج، يتم ضبط جميع هذه الأزرار عشوائياً. إذا سألت نموذجاً "فارغاً" كهذا عن معنى الحياة، فسيصدر سلسلة عشوائية من الأحرف. عملية التدريب هي الضبط الدقيق لكل مليار معامل حتى يظهر نص أو صور ذات مغزى في الناتج.
تاريخياً، اتبعنا مسار التوسع. كانت الشبكات العصبية المبكرة تعمل بآلاف المعاملات وكانت يمكن أن تتعرف فقط على الأرقام المكتوبة بخط اليد. ثم جاءت حقبة التعلم العميق، وارتفع العدد إلى ملايين. حدث الاختراق الحقيقي مع ظهور بنية Transformer، التي جعلت من الممكن توسيع النماذج إلى حدود لا تصدق. عندما أطلقت OpenAI GPT-3 بـ 175 مليار معامل، اهتز العالم. بدا أننا وجدنا صيغة عالمية: ما عليك سوى إضافة المزيد من المعاملات والبيانات، وسيصبح النموذج أذكى. سُمي هذا الظاهرة بـ Scaling Laws. ومع ذلك، في هذا السباق على الحجم، واجهنا قانون تناقص العائدات. النماذج الضخمة تتطلب قوة حسابية ضخمة، وتستهلك الكهرباء مثل المدن الصغيرة، وتعمل بشكل بطيء.
ما الذي تفعله هذه المعاملات فعلاً داخل النموذج؟ من الناحية الفنية، تنقسم إلى أوزان وانحيازات. تحدد الأوزان قوة الاتصالات بين الخلايا العصبية: إلى أي مدى يجب أن تؤثر كلمة واحدة في السياق على اختيار الكلمة التالية. تساعد الانحيازات النموذج على تصحيح تنبؤاته عندما تنحرف البيانات عن المعيار. في عملية الانتشار العكسي للخطأ (backpropagation)، يحسب الخوارزمية الاتجاه الذي يجب تحويل كل مليار "زر" فيه حتى تكون الإجابة التالية أكثر دقة قليلاً. تتكرر هذه العملية تريليونات المرات عبر مجموعات بيانات ضخمة من الإنترنت والكتب والأكواد. نتيجة لذلك، تتبلور المعاملات المعرفة البشرية بداخلها، وتصبح نوعاً من قاعدة البيانات المضغوطة التي لا تعرف فقط كيفية تخزين الحقائق بل أيضاً كيفية دمجها.
ومع ذلك، للعملة جانب سلبي - الإفراط في التدريب. إذا كان لديك عدد كبير جداً من المعاملات لكن لا توجد بيانات عالية الجودة كافية، فقد يقوم النموذج ببساطة بـ "حفظ" مجموعة التدريب. يصبح طالباً متفوقاً في الامتحانات التي تحتوي على أسئلة مألوفة، لكنه يفشل تماماً في الحياة الواقعية عند مواجهة مهمة غير مألوفة. هذا أحد التحديات الرئيسية في التطوير الحديث: كيفية موازنة قوة النموذج مع قدرته على التعميم. علاوة على ذلك، نرى بشكل متزايد أن الحيل المعمارية، مثل Mixture of Experts (MoE)، تسمح باستخدام تريليونات المعاملات دون تفعيل جميعها في نفس الوقت. هذا يجعل النماذج أكثر كفاءة، على الرغم من أن حجمها يستمر في النمو رسمياً.
اليوم، تتحرك الصناعة تدريجياً بعيداً عن عبادة "العملقة". نشهد ظهور نماذج لغوية صغيرة (SLM)، والتي بـ 7 مليارات معامل تظهر نتائج أفضل من العمالقة القدماء بـ 100 مليار. يحدث هذا بسبب تنظيف البيانات ذات الجودة الأعلى والطرق الذكية للتدريب. توقفت المعاملات عن كونها مجرد رقم في بيان صحفي؛ أصبحت موردا يجب إنفاقه بحكمة. في النهاية، ما يهم ليس عدد "الأزرار" التي تمتلكها على لوحة التحكم الخاصة بك، بل مدى دقة ضبطها. نحن ندخل عصراً حيث تكون الكفاءة المعمارية وكثافة المعرفة في كل معامل ذات أهمية أكبر بكثير من إجمالي عددها.
الملخص: السباق على كمية المعاملات يتم استبداله بسباق على جودتها. هل يمكن لنموذج يحتوي على مليار معامل أن يضاهي الدماغ البشري من خلال الضبط المثالي؟
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.