هندسة attention: كيف يعلّم QK Norm النموذج فهم المعنى
QK Norm في transformers ليس مجرد وسيلة للاستقرار. فالتطبيع يحوّل الضرب القياسي إلى تشابه جيب التمام، ما يجبر الشبكة على التعبير عن المعنى عبر الزوايا بين المتجه
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
QK Norm — تطبيع الاستعلام والمفتاح قبل الضرب النقطي في آلية الانتباه — غالباً ما يُنظر إليه على أنه تفصيل تقني لاستقرار الأرقام. في الواقع، إنها قيود هندسية عميقة تُجبر المحول على التعبير عن المعنى بطريقة مختلفة تماماً.
المشكلة بدون تطبيع
طبقات الشبكة كسولة. عندما لا توجد معايير، بدلاً من تدوير المتجهات بذكاء والتعبير عن المعنى من خلال العلاقات الزاوية، يأخذ المحول الطريق البسيط: يزيد الحجم. الرمز المهم يصبح ببساطة أقوى. يفعل هذا لأنه يستطيع. الضرب النقطي q⃗ · k⃗ = |q⃗| |k⃗| cos(θ) ينمو من خلال الزاوية والحجم معاً. تتعلم الشبكة كلاهما: تنظر إلى الزاوية وتضخم المتجه. وتضخيم المتجه أرخص من الفهم. هذا يؤدي إلى "حوض الانتباه" — عندما تبدأ الرموز النحوية الوظيفية (الفواصل والأدوات والضمائر) بالهيمنة لأنها تظهر بشكل متكرر وستجمع حجماً كبيراً بشكل طبيعي.
كيف يعمل QK Norm
التطبيع قيد. عندما نطبّع الاستعلام والمفتاح إلى طول واحد، يصبح الضرب النقطي تشابه جيب التمام. يتم "قفل" المتجهات على كرة فائقة ذات أبعاد N. الآن لا تستطيع الشبكة تضخيم المتجه لجذب الانتباه. لم يبقَ إلا خيار واحد: تدوير المتجه بحيث تعبر زاويته مع المتجهات الأخرى عن العلاقة الدلالية المطلوبة. إذا كنت بحاجة إلى ربط بين الكلمات — أظهره بزاوية وليس بصوت. هذا يغيّر بشكل جذري كيفية عمل التمثيلات الداخلية:
- يتم ترميز المعنى بواسطة الزوايا بين المتجهات وليس حجمها
- جميع الرموز على مسافة متساوية من الأصل
- الكلمات النادرة لا تُفقد لأنه على الكرة الفائقة الجميع متساوون
- الانتباه يعتمد على التشابه الدلالي وليس التكرار
المكان الصحيح في البنية المعمارية
تفصيل حرج واحد: QK Norm يجب أن يأتي قبل RoPE (تضمين الموضع الدوار)، وليس بعده. إذا تم تطبيق التطبيع بعد RoPE، فإن المعلومات الموضعية تصبح غير واضحة ولا يتم ترميزها بشكل صحيح. الترتيب: تطبيع الاستعلام والمفتاح → ثم RoPE.
ما معنى هذا
هذا ليس مجرد خدعة هندسية لاستقرار الأرقام — إنها إعادة تعريف لما يعنيه "الانتباه" على المستوى الهندسي. تتعلم الشبكة التي تعتمد على الزوايا بدلاً من الحجوم أن تعمم بشكل أفضل على الرموز النادرة وتتجنب عادة الهيمنة بالكلمات الوظيفية. بدون نتائج تجريبية على نماذج بمليارات المعاملات، يبقى هذا حجة نظرية، لكن المنطق الهندسي سليم.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.