Habr AI→ المصدر

تشريح Claude: أخيرا نظرت Anthropic في أعماق دماغ الشبكة العصبية

تخيل أنك تتحدث مع أستاذ عبقري منذ سنوات، يقدم إجابات رائعة، لكنك لا تملك أي فكرة عن كيفية تنظيم أفكاره. تطرح سؤالاً وتحصل على نتيجة، والعملية الداخلية تبقى…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
تشريح Claude: أخيرا نظرت Anthropic في أعماق دماغ الشبكة العصبية
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تخيل أنك تتحدث مع أستاذ عبقري منذ سنوات، يقدم إجابات رائعة، لكنك لا تملك أي فكرة عن كيفية تنظيم أفكاره. تطرح سؤالاً وتحصل على نتيجة، والعملية الداخلية تبقى لغزاً. هكذا عشنا مع نماذج اللغات الكبيرة في السنوات الأخيرة. أطلقنا عليها اسم «الصندوق الأسود» وعزونا الغرابة إلى سحر أوزان الشبكات العصبية. لكن فريق Anthropic قرر أن الوقت قد حان لإضاءة النور في هذه الغرفة المظلمة. أجرى الباحثون عملية واسعة النطاق لتشريح Claude 3 Sonnet، والنتائج تفرض علينا إعادة التفكير في كل ما كنا نعرفه عن التفكير الآلي.

لفترة طويلة، كان يُعتقد أن المعرفة داخل الشبكة العصبية موزعة بنحو رقيق على مليارات من المعاملات. لم تستطع الإشارة بإصبعك إلى مكان محدد والقول: «هنا Claude يفكر في لندن، وهنا—في الفيزياء الكمومية.» استخدمت Anthropic طريقة تسمى «تعلم القاموس». لتبسيط الأمر، جعلوا شبكة عصبية واحدة تحلل عمل شبكة أخرى لاستخراج الأنماط المتكررة. نتيجة لذلك، اكتشفوا ملايين ما يسمى «الميزات»—وحدات عقلية مسؤولة عن مفاهيم محددة. إنه مثل أن يجد البيولوجيون أخيراً الجينات المسؤولة عن سمات شخصية محددة، بدلاً من مراقبة سلوك الكائن الحي فقط.

كان المثال الأكثر إمتاعاً وحيويةً هو تجربة مع جسر Golden Gate. وجد الباحثون مجموعة من الخلايا العصبية التي تتفعل عند ذكر هذا المعلم. عندما قاموا بتضخيم هذا التفعيل بشكل مصطنع، أصبح Claude مجنوناً حرفياً بحباً للجسر. لأي سؤال—من وصفات الكعك إلى المشاكل الوجودية—بدأ يرد من خلال عدسة «Golden Gate». بدا هذا مضحكاً، لكن خلف السخرية تكمن اكتشافات أساسية: لقد تعلمنا كيفية التلاعب المباشر بوعي النموذج دون تغيير تدريبه الأساسي. وجدنا رافعات التحكم التي كنا نشك فقط في وجودها.

ومع ذلك، عمل Anthropic ليس مجرد لهو مع الجسور. اكتشفوا أنماطاً أكثر خطورة بكثير. حدد الباحثون مجموعات من الخلايا العصبية المسؤولة عن إنشاء أسلحة بيولوجية، وكتابة كود ضار، والكذب وحتى إطراء المستخدم. يغير هذا الاكتشاف قواعد اللعبة في مجال الأمان. بدلاً من محاولة إعادة تدريب النموذج بحظر لا نهاية له وتصفية قد يتعلم تجاوزها على أي حال، نحصل على القدرة على مراقبة «نواياه» في الوقت الفعلي. إذا أضاءت مصباح «إنشاء فيروس» أثناء توليد الإجابة، يمكن إيقاف النظام قبل أن ينتج حتى الحرف الأول.

لماذا هذا مهم الآن؟ صناعة الذكاء الاصطناعي في مفترق طرق. من ناحية، أصبحت النماذج أقوى وأقوى؛ من ناحية أخرى—الخوف من الذكاء الاصطناعي غير المنضبط يجعل المنظمين يشددون الخناق. يعطي عمل Anthropic أملاً في أن نتمكن من بناء ذكاء اصطناعي شفاف. إذا فهمنا المنطق الداخلي لنموذج ما، يمكننا أن نثق به بمهام معقدة. هذا هو الطريق من الإيمان الأعمى بخوارزمية إلى دقة الهندسة. نحن ننتقل من عصر الخيمياء، حيث كنا ببساطة نخلط البيانات ونأمل في الذهب، إلى عصر الكيمياء، حيث يتم حساب كل تفاعل وفهمه.

بالطبع، الشفافية الكاملة لا تزال بعيدة. Claude 3 Sonnet هو نموذج متوسط الحجم، وتفسير أخيه الأكبر Opus أو النماذج القادمة من الجيل التالي سيتطلب قوة حاسوبية ضخمة. ومع ذلك، أثبتت Anthropic أن «الصندوق الأسود» يمكن فتحه. لم يعد هذا مسألة إمكانية، بل مسألة موارد ووقت. الآن بعد أن رأينا الهندسة الداخلية لأفكار الشبكة العصبية، لا عودة إلى مجرد مراقبة النتيجة. نبدأ في فهم كيفية تفكير العقول السيليكونية، وهذا الفهم هو أفضل تأمين ضد سيناريوهات الخيال العلمي.

الخلاصة: Anthropic تحول الذكاء الاصطناعي من نبي غير متنبأ به إلى أداة قابلة للفهم. هل يستطيع لاعبون آخرون، مثل OpenAI و Google، جعل نماذجهم شفافة بنفس القدر، أم أنهم يفضلون إبقاء السحر مخفياً?

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…