قدمت Moonshot AI Attention Residuals — بديلاً عن residual connections في transformers
عرضت Moonshot AI Attention Residuals كطريقة جديدة لجمع الإشارات بين طبقات transformer ليس عبر جمع ثابت، بل عبر attention على امتداد العمق. وفي الاختبارات،…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت Moonshot AI Attention Residuals — وهو تحديث معماري للمحولات (Transformers) يغيّر أحد أكثر العناصر أساسية في النموذج: الاتصالات المتبقية. بدلاً من الجمع الثابت لمخرجات جميع الطبقات السابقة، تقترح الفريق انتباهاً depth-wise، مما يسمح للنموذج بتحديد التمثيلات من عمق الشبكة التي يحتاجها فعلاً.
حيث يقع اختناق الأداء
في معظم نماذج اللغات الكبيرة (LLMs) الحديثة، لا تقتصر كل طبقة جديدة على معالجة المدخلات فحسب، بل تضيف نتيجتها إلى الحالة المخفية العامة. هذا النظام، الموروث من النهج المتبقي والشهير بشكل خاص في معماريات PreNorm، يساعد في تدريب الشبكات العميقة دون انهيار التدرج. لكن له ثمن: يتم مزج جميع التمثيلات السابقة بوزن متساوٍ، وتصبح مساهمتها ضبابية بمرور الوقت.
مع زيادة العمق، تنمو الحالات المخفية تقريباً خطياً، مما يجعل من الصعب بشكل متزايد استخراج الإشارات المبكرة بطريقة مفيدة. تسمي Moonshot AI هذا مشكلة التجميع حسب العمق (depth-wise aggregation): تعلم النموذج بشكل جيد اختيار الرموز (tokens) المهمة حسب التسلسل وتوجيه الخبراء في MoE، لكن عبر عمق الشبكة لا يزال يعتمد على الجمع الثابت. يرسم الباحثون تشبيهاً مباشراً مع عصر الشبكات العصبية المتكررة (RNN): كانت السلسلة تُضغط ذات مرة في حالة واحدة، حتى منح الانتباه كل رمز الوصول إلى جميع الخطوات السابقة.
هنا، يقترحون فعل الشيء نفسه تقريباً، فقط عبر الطبقات بدلاً من الوقت.
كيف يعمل AttnRes
في Attention Residuals، لا تستقبل كل طبقة مجموع جميع المخرجات السابقة، بل مزيجاً مرجحاً من التمثيلات السابقة من خلال softmax-attention. يعتمد الوزن على الطبقة نفسها والبيانات المدخلة، لذلك يمكن للشبكة تضخيم الإشارات المفيدة وقمع الضوضاء بدلاً من توريث كل شيء بالتساوي. في المتغير العملي، يستخدم هذا آلية خفيفة جداً: متجه استعلام زائف قابل للتعلم واحد لكل طبقة.
بسبب هذا، لا تبدو الفكرة كإعادة هيكلة جذرية للمحول، بل كاستبدال مضغوط نسبياً للنظام المتبقي المألوف. تتطلب النسخة الكاملة من AttnRes تخزين جميع الحالات السابقة، لذلك بالنسبة للنماذج الكبيرة تقترح Moonshot AI Block AttnRes. يتم تقسيم الطبقات إلى كتل، تبقى التراكمات العادية داخل الكتلة، بينما يتم تطبيق الانتباه بين التمثيلات الملخصة للكتل.
وفقاً للفريق، فإن التكوين الذي يحتوي على حوالي ثماني كتل يحافظ على معظم مكاسب النسخة الكاملة، ويقلل متطلبات الذاكرة والاتصالات من O(Ld) إلى O(Nd)، ويحافظ على تأخير الاستدلال الإضافي أقل من 2%.
ما أظهرته الاختبارات
اختبرت Moonshot AI النهج ليس فقط على تجارب قانون التدرج (scaling-law)، بل أيضاً على نموذج Kimi Linear المسبق التدريب الكبير الذي يحتوي على 48 مليار معاملة، من بينها 3 مليارات نشطة، مدرب على 1.4 تريليون رمز. الأطروحة الرئيسية هي: يحقق Block AttnRes نفس دالة الخسارة مثل النموذج الأساسي المدرب بميزانية حسابية أكبر بـ 1.25 مرة. أي أن الأمر يتعلق ليس بضبط تجميلي، بل بتدرج مقياس أكثر ملائمة.
- GPQA-Diamond: 36.9 → 44.4
- HumanEval: 59.1 → 62.2
- MMLU: 73.5 → 74.6
- C-Eval: 79.6 → 82.5
- تأخير الاستدلال: أقل من 2%
ديناميكية التعلم مهمة بشكل خاص. في التقرير، تلاحظ الفريق أن AttnRes يخفف من تأثير تمييع PreNorm: لا تتشتت سعة الحالات المخفية مع العمق، وتوزع معايير التدرج بشكل أكثر تساوياً عبر الطبقات. في الممارسة، هذا يعني تدريباً أكثر قابلية للتحكم واحتمالية أقل من أن تعمل جزء من عمق النموذج كحمولة ثقيلة لكن ضعيفة الفائدة. جاءت أكبر المكاسب في التفكير متعدد الخطوات وإنشاء الأكواد، مما يجعل العمل مهماً بشكل خاص للنماذج اللغوية الكبيرة المستقبلية والأنظمة الموكلة.
ماذا يعني هذا
هذا ليس chatbot جديداً أو ميزة مستخدم، بل محاولة لإعادة كتابة أحد الكتل الأساسية للمحولات. إذا تم تأكيد نتائج Moonshot AI على معماريات أخرى وفي الأكوام الصناعية، فإن السباق نحو جودة نماذج اللغات الكبيرة سيكون مدفوعاً بشكل متزايد ليس فقط بمزيد من البيانات ووحدات المعالجة، بل بآلية داخلية أكثر ذكاءً في النماذج نفسها.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.