نشر Habr دليلاً موجزًا حول attention: self-attention وcross-attention وmulti-head

نشر Habr مرجعًا مصغرًا وواضحًا حول attention في transformers. يشرح النص باختصار كيف تُستخرج Q وK وV من embeddings، ولماذا يُقسَّم الضرب القياسي على الجذر…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Habr AI

2 مايو 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News

نشر Habr دليلاً موجزًا حول attention: self-attention وcross-attention وmulti-head — المصدر: Habr AI. كولاج: Hamidun News.

◐ استمع للمقال

نشر Habr دليلاً موجزاً عن الانتباه: self-attention و cross-attention و multi-head

نشر Habr تحليلاً موجزاً لآلية الانتباه — الفكرة الأساسية التي يُبنى عليها المحول والنماذج اللغوية الكبيرة الحديثة. يُظهر المحتوى، دون حشو غير ضروري، كيف يختار النموذج أي الرموز يثق بها أكثر، ثم يشرح ذلك بمثال عددي بسيط وأكواد في PyTorch.

كيفية عمل الانتباه

يبدأ المؤلف بتعريف أساسي: يسمح الانتباه للشبكة العصبية بعدم معالجة جميع أجزاء الإدخال بالتساوي، بل بالقرار الديناميكي بشأن ما هو أكثر أهمية للمهمة الحالية. لتحقيق ذلك، تُحول سلسلة الإدخال إلى ثلاث مجموعات من التمثيلات — Query و Key و Value. بعد ذلك، يقارن النموذج استعلام كل رمز بمفاتيح جميع الرموز الأخرى، ويحصل على أوزان الأهمية، وعلى أساسها ينشئ متجهاً سياقياً جديداً. هذا هو الحيلة الرئيسية: لا تعتمد قيمة الكلمة أو العنصر على نفسه فقط، بل على البيئة بأكملها. يمر المحتوى عبر سلسلة الحساب بأكملها خطوة بخطوة:

من المضمنات، يتم بناء المصفوفات Q و K و V
ثم يتم حساب تشابه الرموز من خلال الضرب النقطي
يتم قياس النتيجة بالقسمة على الجذر التربيعي للأبعاد
بعد softmax، يتم الحصول على أوزان الانتباه
الناتج النهائي هو المجموع المرجح لمصفوفة V

يُشرح بشكل منفصل سبب الحاجة إلى القسمة على sqrt(d_k). مع نمو أبعاد المتجهات، تصبح الضروب النقطية كبيرة جداً، ويتم تشبع softmax بسرعة، وتبدأ التدرجات في الاضمحلال. يحافظ القياس على الحسابات في نطاق أكثر استقراراً ويجعل التدريب أكثر قابلية للتنبؤ. بالنسبة للمبتدئين، هذا تركيز مفيد: في معظم الشروحات، تُقدَّم الصيغة كمسلَّمة، لكن هنا يُظهر ما المشكلة التي تحلها فعلاً.

مثال مع الرموز

الجزء الأكثر فهماً من النص هو مثال مبسط مع العبارة "كارينا تذهب إلى المتجر". يبسط المؤلف المسألة إلى أربعة رموز ومضمنات ثنائية الأبعاد لتجنب الغرق في المصفوفات، ثم يمر يدويًا عبر جميع الخطوات: الرموزنة، إضافة المعلومات الموضعية، بناء مصفوفة X، حساب QK^T، القياس، softmax والضرب النهائي بـ V. بفضل هذا، يتوقف الانتباه عن بدو السحر من الصيغة ويصبح سلسلة عادية من العمليات على المتجهات.

بعد التطبيع، يمكنك رؤية كيفية توزيع الانتباه. بالنسبة للرمز "كارينا"، يأخذ النموذج في المثال حوالي 31% من المعلومات من الكلمة نفسها، و 15% من كلمة "تذهب"، والباقي من رموز أخرى في الجملة. في الناتج، تتحول المضمنات الأصلية إلى تمثيلات جديدة، الآن سياقية.

هذه لحظة مهمة لفهم المحولات: لا يخزن النموذج قيمة ثابتة لكلمة مرة واحدة وإلى الأبد، بل يعيد تجميعها من جديد في كل سياق.

"لا يصف كل متجه بعد self-attention الكلمة بحد ذاتها بعد الآن."

أنواع أخرى من الانتباه

في النصف الثاني من المقالة، ينتقل المؤلف إلى امتدادين للمخطط الأساسي. يُوصف cross-attention كوضع يتم فيه أخذ Query من سلسلة واحدة، بينما يتم أخذ Key و Value من سلسلة أخرى. من الناحية العملية، من المناسب التفكير فيه كآلية تسمح للمفكك بالرجوع إلى سياق المشفِّر.

تتغير الصيغة بقليل، لكن مصدر البيانات يتغير: يقارن النموذج الاستعلام الحالي ليس مع نفسه، بل مع سياق خارجي. هذا كتلة أساسية للمترجمين والأنظمة متعددة الوسائط والعديد من معماريات encoder-decoder. بعد ذلك، يتم مناقشة multi-head attention.

بدلاً من انتباه واحد، يشغل النموذج عدة "رؤوس" بالتوازي، وتتعلم كل واحدة أن تنظر إلى السلسلة من زاويتها الخاصة: يمكن لواحدة أن تلتقط بشكل أفضل الاتصالات المحلية، وأخرى — التبعيات البعيدة، وثالثة — النحو أو الأدوار الدلالية. ثم يتم دمج نتائج الرؤوس وتمريرها عبر تحويل خطي آخر. تتضمن المقالة أيضاً تطبيقات دنيا من جميع المتغيرات الثلاثة في PyTorch: self-attention و cross-attention و multi-head self-attention، لذا يعمل النص ليس فقط كنظرية بل أيضاً كملخص بداية للتطبيق العملي.

ماذا يعني هذا

بالنسبة لمن يدخلون للتو موضوع المحولات، هذا مادة استهلالية ناجحة: إنها لا تثقل بالإثباتات، لكنها تأخذك بصراحة عبر الرياضيات والأمثلة والأكواد. وللممارسين، إنه تذكير بأنه خلف "السحر" في نماذج اللغات الكبيرة تقف عمليات محددة جداً مع الأوزان والمصفوفات والسياق — ومن المفيد فهمها إذا كنت تعمل مع النماذج ليس فقط كمستخدم.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →