كيف أصبح الحاصل الضربي القياسي من كتاب الجبر أساس ChatGPT و Claude و Gemini
في عام 2017، نشرت Google مقالة "Attention is All You Need" — وشبكات الأعصاب الاصطناعية لم تعد كما كانت. اليوم، يعمل ChatGPT و Claude و Gemini و Midjourney…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
في عام 2017، نشرت مجموعة من مهندسي جوجل مقالة بعنوان "Attention is All You Need" — وقسمت بصمت تاريخ الذكاء الاصطناعي إلى "قبل" و"بعد". بدون عروض فخمة أو روبوتات بشرية الشكل، وصف ثمانية باحثين معمارية تقوم أساس ChatGPT و Claude و Gemini و Midjourney وعملياً جميع الذكاء الاصطناعي التوليدي الحديث. والأكثر إثارة للدهشة — أن أساس هذه الثورة تبين أنه إحدى أبسط العمليات في الجبر الخطي: الضرب النقطي لمتجهين.
الجدار الذي اصطدمت به الشبكات العصبية
قبل المحولات، هيمنت الشبكات المتكررة — RNNs و LSTMs — على معالجة النصوص. كانت تقرأ الجمل بشكل متسلسل: كلمة تلو الأخرى، خطوة تلو الخطوة. المشكلة كانت أنه بنهاية نص طويل، كانت النموذج "تنسى" البداية — كان الإشارة تضعف مع مرورها عبر مئات الخطوات الوسيطة. كان هذا يسمى مشكلة التدرج المتلاشي. تخيل: نموذج يقرأ رواية وبحلول الفصل الخامس يكون قد نسي اسم الشخصية الرئيسية. وهذا بالضبط كان الجدار الذي اصطدمت به الشبكات العصبية بحلول منتصف عقد 2010. كانت المعمارية تتسع بشكل سيء، والحسابات المتوازية كانت غير متاحة عملياً — كل خطوة تالية كانت تعتمد على السابقة. كان هناك حاجة إلى شيء مختلف بشكل أساسي.
لماذا الضرب النقطي بسيط بعبقرية
الضرب النقطي هو عملية من دورة الجبر المتجه القياسية. تأخذ متجهين، تضرب إحداثياتهما بشكل زوجي وتجمع جميع النتائج. النتيجة هي رقم واحد: كلما كان أكبر، كلما كان المتجهان "متشابهين" أو "مرتبطين" ببعضهما البعض. في آلية الانتباه الذاتي لمحول، يتم تطبيق هذه العملية على النحو التالي:
- يتحول كل كلمة إلى ثلاثة متجهات: Query (الاستعلام)، Key (المفتاح)، و Value (القيمة)
- يظهر الضرب النقطي للاستعلام لكلمة واحدة مع مفتاح كل كلمة أخرى "قوة الاتصال" بين زوج من الكلمات
- يتم تحجيم النتائج وتطبيعها من خلال softmax — مما ينتج عنه أوزان الانتباه من 0 إلى 1
- المتجه النهائي لكلمة هو مجموع مرجح لجميع القيم وفقاً لهذه الأوزان
في الأساس، يطرح كل رمز في نفس الوقت سؤالاً على جميع الآخرين: "ما مدى أهميتك لفهمي الآن؟" — ويتلقى إجابة رقمية دقيقة. يحدث هذا بالتوازي للجملة بأكملها، وليس بشكل متسلسل كلمة تلو الأخرى.
ثلاث خصائص غيرت الصناعة
تبين أن الضرب النقطي هو العملية المثالية للغة لعدة أسباب في نفس الوقت.
التوازي. يمكن إجراء جميع حسابات الانتباه بشكل متزامن — على عكس RNNs، حيث تعتمد كل خطوة على السابقة. وقد فتح هذا GPUs و TPUs وأتاح توسيع النماذج لمئات المليارات من المعاملات. وهكذا ظهر BERT و GPT-3 وبعد ذلك GPT-4 و Claude على مدار عدة سنوات.
السياق العام بدون تلاشي. كل كلمة "ترى" فوراً جميع الآخرين — بغض النظر عن المسافة في النص. يرتبط الضمير "هو" في نهاية فقرة طويلة بشكل صحيح باسم الشخصية من البداية تماماً. لا يوجد تلاشي الإشارة عبر الطبقات الوسيطة.
قابلية التفسير. يمكن تصور مصفوفات الانتباه — حرفياً رؤية كلمة تنتبه إلى ماذا عند معالجة الجملة. هذا نادر في عالم الشبكات العصبية، حيث تبقى معظم القرارات صندوقاً أسود.
"لا نحتاج إلى التكرار والالتواءات على الإطلاق"، كتب المؤلفون في عام
2017. بالنسبة للمجتمع في ذلك الوقت، بدا هذا مثل الهرطقة. بعد ثلاث سنوات أصبح بديهية.
ما معنى هذا
أثبت المحول: ثورة في الذكاء الاصطناعي يمكن أن تأتي ليس من علم الأعصاب ولا من فلسفة الوعي، بل من كتاب الجبر الخطي من السنة الثانية. ChatGPT و Claude و Gemini و Midjourney — جميعهم في أساسهم يضربون مصفوفات الضرب النقطي مليارات المرات في الثانية. تبين أن بساطة العملية هي قوتها الرئيسية: ليس التعقيد، بل الاختيار الصحيح لأداة أولية غيّر كل شيء.
هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟
أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).
أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع
سبع قصص مهمة فعلاً هذا الأسبوع، مختارة بعناية. بلا ضجيج ولا بيانات صحفية.
تم! تحقق من بريدك للتأكيد.