لماذا الدماغ أكثر كفاءة من GPT-4 بمئات الملايين من المرات وإلى أين تتجه الرقائق العصبية الشكلية
يستهلك الدماغ البشري طاقة أقل بملايين المرات في الأنشطة الإدراكية مقارنة بنماذج اللغات الكبيرة الحديثة، وليس الأمر مجرد مسألة معالجات. الفرق الأساسي يكمن في…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
يكشف المقارنة بين الدماغ البشري وشبكات اللغات الكبيرة الحديثة عن حقيقة محرجة لصناعة الذكاء الاصطناعي: حتى أقوى النماذج تبقى جوعى للطاقة بشكل مفرط. يعمل الدماغ على حوالي 20 واط، بينما قد تتطلب نماذج اللغات الكبيرة أثناء الاستدلال كيلووات، وأثناء التدريب — ميجاوات من الطاقة. إذا نظرنا ليس إلى معايير التسويق بل إلى تكلفة فكرة واحدة، فالفرق هائل: البيولوجيا تقوم بنفس العمل بأرخص بأوامر من حيث الحجم من السيليكون.
تبدأ المقالة المقارنة بأرقام أساسية. يُقدر أن الدماغ يؤدي حوالي 10^16 عملية تشابكية في الثانية مع استهلاك حوالي 20 واط. بالنسبة لشبكات اللغات الكبيرة الحديثة، يتم تحقيق مقياس حسابي مماثل من خلال معالجات GPU و TPU، لكن تكلفة كل عملية أعلى بكثير.
من حيث الطاقة لكل عملية، نتحدث عن أتوجول للدماغ مقابل بيكوجول وما فوق لمعالجات رقمية. يقدم المؤلف مثالاً أكثر وضوحاً: للإجابة على سؤال بسيط مثل الفرق بين الميثان والإيثان، يقوم الدماغ بتفعيل جزء صغير فقط من الخلايا العصبية ويقضي حوالي أعشار الجول، بينما يجب على GPT-4 تحميل مجموعة ضخمة من المعاملات وتنفيذ حجم ضخم من العمليات المصفوفية. في هذا الإطار، يمكن أن تصل الفجوة إلى مئات ملايين المرات.
السبب ليس أن المهندسين لديهم ببساطة أجهزة سيئة، بل في المبادئ الحسابية نفسها. يعمل الدماغ بشكل تناظري: تعمل الخلايا العصبية والنقاط الشبكية على تدرجات مستمرة وجهود الأغشية والتيارات الأيونية. يقوم عنصر بيولوجي واحد في نفس الوقت بتخزين الحالة والمشاركة في الحساب.
شبكات اللغات الكبيرة مختلفة: يتم تمثيل البيانات كبتات، يتم فصل الحساب عن الذاكرة، وتنقسم كل عملية مصفوفة إلى سلسلة طويلة من المفاتيح الرقمية. الميزة الثانية للدماغ هي التكرار والديناميكا الزمنية. يتم تفعيل نفس الخلية العصبية عدة مرات في معالجة الإشارة، ويصبح الوقت جزءاً من الحساب.
يقوم محول الانتباه، في المقابل، بدفع كل رمز عبر مجموعة ثابتة من الطبقات ويدفع ثمن ذلك برقم ضخم من العمليات المتوازية. الفرق الثالث هو الندرة. في الدماغ، نسبة صغيرة فقط من الخلايا العصبية نشطة في نفس الوقت، لذلك لا يهدر النظام الطاقة على تفعيل الشبكة بأكملها.
في شبكات اللغات الكبيرة، في كل خطوة، يتم تفعيل مصفوفات ضخمة من الأوزان، حتى لو كانت المهمة بسيطة نسبياً. العامل الرابع هو التعلم المحلي. يقوم النظام البيولوجي بتغيير نقاط تشابكية محددة حيث ظهرت تجربة جديدة، بدلاً من تشغيل الانتشار العكسي العام عبر شبكة ضخمة.
الخامس هو فيزياء الركيزة نفسها: تعمل القنوات الأيونية والعمليات البيوكيميائية بالقرب من الحد الأدنى الديناميكي الحراري، بينما حتى الترانزستورات المتقدمة تتبديل مع خسائر أكبر بكثير. أخيراً، يحصل الدماغ على جزء من هيكله مجاناً: قشرة الرؤية والحصين والمخيخ والوحدات المتخصصة الأخرى وصلت إليه كنتيجة للتطور، بينما يجب على شبكات اللغات الكبيرة أن تتعلم هيكل العالم من جديد من خلال مجموعات بيانات ضخمة وتدريب مكلف جداً. هذا لا يعني أن النماذج الكبيرة لا تملك مستقبلاً.
بل الخلاصة أن معمارية محول الانتباه الحالية قد واجهت تكلفة الطاقة لراحتها الخاصة. تبحث الصناعة بالفعل عن حلول بديلة: التكمية إلى 4–8 بتات، محولات الانتباه النادرة، مزيج الخبراء، الشبكات السائلة والنابضية. تعطي بعض الأساليب بالفعل تحسناً بنسبة 5–10 مرات، لكن هذا غير كافٍ للاقتراب من المستوى البيولوجي.
لذلك، تنتقل المزيد والمزيد من الاهتمام نحو الأجهزة الشكلانية العصبية. تعمل مثل هذه الأنظمة بالفعل: تُنتشر SpiNNaker2 كحاسوب عملاق متخصص ويمكن حتى استئجارها عبر السحابة، BrainChip Akida موجهة نحو الذكاء الاصطناعي الطرفي، SynSense Xylo و Innatera Pulsar موجهة نحو سيناريوهات الميكروواط والمستشعرات. ومع ذلك، حتى أفضل هذه الحلول حالياً تتخلف عن الدماغ بحوالي ثلاثة أوامر من حيث الحجم في كفاءة الطاقة وتتطلب مجموعة برامج مختلفة تماماً.
يبدو الأفق العملي أيضاً متزناً. في 2026–2028، من المرجح أن تنمو رقائق الشكلانية العصبية في الروبوتات والمتحكمات الصناعية والمستشعرات والأنظمة المستقلة، حيث تكون الكمون واستهلاك الطاقة حرجين. قد تحصل الإلكترونيات الاستهلاكية مثل الهواتف الذكية والساعات الذكية على مثل هذه المعالجات الإضافية، إن حصلت عليها، أقرب إلى عام 2030 وما بعده.
المشكلة الرئيسية هنا ليست فقط تصنيع الرقائق بل أيضاً البرمجيات: لا تعمل الأدوات المألوفة مثل PyTorch و TensorFlow مع الشبكات النابضية بدون تكييف جدي، ولا توجد بعد معايير تدريب عالمية لمثل هذه الأنظمة. الخلاصة الرئيسية بسيطة: الدماغ اليوم ليس أذكى فقط في المهام الفردية، بل أكثر اقتصاداً بشكل جذري كجهاز حسابي. لذلك، من المرجح أن تأتي الطفرة الكبيرة القادمة في الذكاء الاصطناعي ليس من شبكة لغات كبيرة أكبر على مجموعة GPU أكبر، بل من تحول في النموذج الحسابي الأساسي.
في الوقت الحالي، يبقى GPT-4 وخلفاؤه طريقة قوية جداً لكن مكلفة من حيث الطاقة للحصول على سلوك شبيه بالذكاء.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.