التقنيات والأساليب

آلية الانتباه (Attention Mechanism)

آلية الانتباه هي مكون شبكة عصبية يسمح للنموذج بترجيح ديناميكي لصلة مواضع الإدخال المختلفة عند حساب كل مخرج، مما يمكّن المعالجة الحساسة للسياق على التسلسلات ذات الطول التعسفي.

آلية الانتباه هي مكون شبكة عصبية يسمح للنموذج بتعيين أوزان أهمية مختلفة ديناميكياً لمواضع مختلفة في تسلسل إدخاله عند حساب كل عنصر من مخرجاته. بدلاً من الاعتماد على تمثيل اختناق بحجم ثابت لكل السياق السابق، كما يجب على الشبكات العصبية المتكررة، يسمح الانتباه للنموذج بالوصول المباشر والتركيز على أي جزء من الإدخال في أي خطوة، بغض النظر عن المسافة الموضعية.

في الصيغة التي قدمها Vaswani وآخرون في 'Attention Is All You Need' (2017)، تحسب كل عملية انتباه ثلاث إسقاطات مكتسبة من الإدخال: الاستعلامات (Q) والمفاتيح (K) والقيم (V). ينتج عن حاصل الضرب النقطي المقيس للـ Q و K درجات انتباه خام؛ يحول softmax هذه إلى توزيع احتمالي على مواضع الإدخال؛ المخرج هو مجموع مرجح لمتجهات V، مركزاً على المواضع الأكثر صلة بالاستعلام الحالي. يشغل الانتباه متعدد الرؤوس هذا الحساب بالتوازي عبر مساحات فرعية مكتسبة متعددة ويربط النتائج، مما يمكّن النموذج من الانتباه في نفس الوقت للمعلومات من منظورات تمثيلية مختلفة — البنية النحوية في رأس واحد، والعلاقات المرجعية في آخر، على سبيل المثال. يشكل تكديس العديد من طبقات الانتباه هذه معمارية Transformer.

حلت آلية الانتباه مشكلة الاعتماد على المدى الطويل التي حدت من النماذج المتكررة: طول مسار المعلومات بين أي موضعين هو O(1) عمليات وليس O(n)، مما يجعل من السهل على النموذج ربط الرموز التي تفصل بينها آلاف المواضع. المعمارية أيضاً قابلة للمعالجة بالكامل بالتوازي عبر بعد التسلسل أثناء التدريب، على عكس الحساب المتكرر، مما مكّن تشغيل التدريب على نطاق واسع الذي أنتج النماذج الأساسية الحديثة.

اعتباراً من عام 2026، كل نموذج لغة حدودي رئيسي — GPT-4o (OpenAI) و Claude 3.x (Anthropic) و Gemini 1.5 و 2.0 (Google) و Llama 3 (Meta) و Mistral — مبني على Transformer attention. ركزت جهود الهندسة على الكفاءة: Flash Attention (Dao وآخرون، 2022) وخلفاؤه قللوا متطلبات عرض نطاق الذاكرة بمقدار رتبة، مما مكّن نوافذ سياق عملية من 128K–1M رموز. يمثل الانتباه المتفرق والانتباه متزلج النافذة (المستخدم في Mistral) والمعماريات الهجينة attention-SSM مثل Mamba و Jamba اتجاهات بحثية نشطة تسعى إلى توسيع الإنتاجية وطول السياق بما يتجاوز ما يسمح به الانتباه الذاتي الكثيف.

مثال

عندما يترجم نموذج لغة الجملة 'The trophy did not fit in the suitcase because it was too big'، تعين آلية الانتباه أوزاناً عالية لـ 'trophy' عند حل الضمير 'it'، مما يستدل بشكل صحيح على أن الكأس — وليس الحقيبة — هو ما كان كبير جداً.

مصطلحات مرتبطة

المحول (Transformer)ذاكرة المفتاح-القيمة (KV-Cache)نافذة السياق (Context Window)معمارة المُشفِّر–فاكك التشفير (Encoder–Decoder Architecture)

← المسرد