تقطير العقل: لماذا الشبكات العصبية الصغيرة تضر بها معلمون أذكياء جداً
تقطير العقل: لماذا تعاني الشبكات العصبية من المعلمين الأذكياء جداً تخيل أنك تحاول شرح الكهروديناميكا الكمية لطفل في الصف الأول الابتدائي. قد تكون عبقرياً من…
معالج بواسطة الذكاء الاصطناعي من Jiqizhixin (机器之心)؛ بتحرير Hamidun News
تقطير العقل: لماذا تعاني الشبكات العصبية من المعلمين الأذكياء جداً
تخيل أنك تحاول شرح الكهروديناميكا الكمية لطفل في الصف الأول الابتدائي. قد تكون عبقرياً من مستوى فاينمان، لكن تلميذك ببساطة لا يملك الأساس المفاهيمي اللازم لاستيعاب المعلومات. في عالم الذكاء الاصطناعي، تسمى هذه العملية التقطير، حيث يحاول نموذج "معلم" ضخم مثل GPT-4 نقل معارفه إلى نموذج "تلميذ" مدمج.
حتى الآن، كانت الصناعة تعتقد أنه كلما زادت البيانات التي نزودها للنموذج الصغير، كلما أصبح أذكى. لكن الباحثين من جامعة فودان قررا الطعن في هذا النهج الكمي، مثبتين أن جبال البيانات غالباً ما تتحول إلى ضوضاء معلوماتية. المشكلة في التقطير الكلاسيكي للتفكير هي أننا لا نأخذ في الاعتبار الفجوة المعرفية بين النماذج.
إذا كانت المهمة بسيطة جداً، فإن نموذج التلميذ يعرف الإجابة بالفعل ولا يتعلم شيئاً. إذا كانت المهمة صعبة جداً، فإنه ببساطة يحفظ سلسلة الرموز دون فهم منطق الاستدلال. قدم العلماء الصينيون مفهوماً أنيقاً وهو "الغريب المألوف".
هذه هي نقاط البيانات التي يتردد حولها نموذج التلميذ: فهو يفهم السياق، لكن لا يزال غير قادر على إنتاج نتائج صحيحة باستمرار. وفي هذه "المنطقة الرمادية" بالذات يحدث النمو الحقيقي للذكاء. لإيجاد هذه الحبات الذهبية من البيانات، اقترحت الفريق مؤشراً بسيطاً لكن فعالاً.
بدلاً من الاعتماد على تقييمات معقدة للأوزان أو فحوصات خارجية، ينظرون إلى ثقة النموذج في إجاباته. إذا أنتج نموذج التلميذ الإجابة الصحيحة باحتمالية منخفضة أو أخطأ بقليل جداً، فعندئذ وجدنا هذا "الغريب المألوف". هذا يشبه منطقة التنمية القريبة في علم النفس البشري: نتعلم بشكل أفضل عندما تطرح المهمة تحدياً لنا لكنها تبقى قابلة للإنجاز.
تبدو النتائج التجريبية محبطة لمن اعتادوا على ببساطة رمي بطاقات فيديو H100 على المشكلة. اتضح أن التدريب على 10% من "الغرباء المألوفين" المختارة بعناية يتفوق على التدريب على 100% من البيانات العشوائية من نفس المجموعة من حيث الكفاءة. هذا ليس مجرد تحسين صغير، إنه تحول أساسي في اقتصاد تدريب الشبكات العصبية.
ننتقل من استراتيجية "الأكثر أفضل" إلى اختيار جراحي دقيق للأمثلة التدريبية. لماذا هذا مهم لنا الآن؟ تنتقل معركة الذكاء الاصطناعي من مزارع الخوادم الضخمة إلى جيوبنا. تحاول Apple و Google و Samsung بيأس حشر نماذج تفكير قوية في الهواتف الذكية.
تسمح منهجية جامعة فودان بجعل هذه النماذج المحلية أذكى بشكل كبير دون تضخيم حجمها وبدون قضاء أسابيع في الضبط الدقيق. إذا تعلمنا تحديد البيانات بكفاءة للتقطير، فسيتقلص الفجوة بين عمالقة السحابة والمساعدين المحليين بسرعة أكبر بكثير مما تنبأ به المتشككون. في النهاية، يذكرنا البحث بأهمية التربية حتى في عالم السيليكون.
المعلم الجيد ليس من يعرف أكثر من الجميع، بل من يفهم المستوى الحالي لتلميذه ويعطيه بالضبط المهمة التي ستجعل دماغه (أو شبكته العصبية) يعمل بحد أقصى قدراته. يبدو أن عصر الاستهلاك الأعمى لتيرابايتات النص آت لنهايته، تاركاً مكانه للتعلم الذكي والانتقائي. الملخص: كفاءة التدريب الآن أكثر أهمية من حجم البيانات.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.