Habr AI→ المصدر

لوبوميير جوربتكو يقدم Sessa — بديل للمحولات و Mamba

قام Habr بتحليل معمارية Sessa — محاولة جديدة لإعادة التفكير في أجهزة فك التشفير للسياق الطويل. الفكرة تتمثل في دمج قابلية التكيف للانتباه مع التعليقات من…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
لوبوميير جوربتكو يقدم Sessa — بديل للمحولات و Mamba
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تم نشر تحليل معمّق لمعمارية Sessa على Habr — وهي محاولة لإعادة التفكير في نماذج decoder-only وتقديم بديل للارتباط المألوف بين Transformer و Mamba. المؤلف لا يعد ببديل جاهز لرموز السوق، بل يوضح شيئاً أكثر أساسية: يمكن وصف أجهزة فك تشفير مختلفة من خلال أساس مشترك، ثم مقارنتها بصراحة حسب كيفية تخزينها واسترجاعها للمعلومات من السياق الطويل. تتقدم منطق المقالة من البسيط إلى المعقد.

أولاً، يشتق المؤلف Transformer من جديد ليس كمجموعة من الكتل المألوفة، بل كتطور للالتفاف العادي. الفكرة هي أن النافذة الثابتة والمعاملات الثابتة تصطدم بسرعة بالقيود: يرى مثل هذا الخلاط فقط السياق المحلي ويتكيف بشكل سيء مع المهمة. إذا تم جعل الأوزان تعتمد على الإدخال، ثم تُطبّع من خلال softmax، فإن الانتباه ينشأ بشكل طبيعي.

في هذا التفسير، تكمن قوة Transformer في المقارنة المرنة للرمز الحالي مع الرموز السابقة، لكن السعر معروف: تصبح الحسابات مكلفة مع نمو طول التسلسل، وفي الوضع المنتشر يكافح الانتباه للحفاظ على عنصر بعيد معين. تنتقل المقالة بعد ذلك إلى S4D و Mamba. هنا ينظر المؤلف إلى المشكلة كمهمة ذاكرة: بدلاً من إعادة قراءة البادئة بأكملها في كل مرة، يمكن للنموذج تجميع الماضي في حالة داخلية.

يحل هذا النهج بعض مشاكل الانتباه ويجعل العمل مع التسلسلات الطويلة أرخص. لكنه له حده الخاص. في عرض المؤلف، يعمل Mamba بشكل جيد عندما تستطيع آلية فضاء الحالة الانتقائية "تجميد" الحالة في الوقت المناسب والاحتفاظ بالإشارة المطلوبة.

إذا تم التعرف على هذا الوضع بشكل سيء، خاصة على التسلسلات الصاخبة أو الطويلة جداً، يبدأ تأثير الرموز القديمة في الاضمحلال بشكل أسي، ويصبح الاستخراج الدقيق للمعلومات المطلوبة أقل موثوقية. في هذا السياق، يتم تقديم Sessa كمتغير هجين. يقترح المؤلف دمج فكرتين: الاحتفاظ بالتكيف الشبيه بالانتباه مع إضافة التغذية الراجعة في نفس الوقت، أي التغذية الراجعة المتحكم بها من خلال الحالات السابقة.

داخل الطبقة، تظهر فرعان: forward، التي تجمع المعلومات من البادئة، و feedback، التي تعيد استخدام الحالات المتراكمة بالفعل. الفكرة الرئيسية هي أن معاملات كلا الفرعين تعتمد على الرمز الحالي وطول التسلسل، مما يعني أن النموذج يحصل على آلية ذاكرة أكثر مرونة من Transformer الكلاسيكي وأكثر وصولاً مباشراً للتاريخ من Mamba. في الأساس، هذه محاولة لتضمين الانتباه داخل دائرة متكررة، بدلاً من إبقاء هذه الأساليب على جانبي الحاجز.

التركيز الرئيسي للمقالة ليس على شعار "هزمنا المحولات"، بل على مقارنة أوضاع الذاكرة. يعتبر المؤلف سيناريو محكوماً حيث تكافح النماذج للتركيز بدقة على رمز واحد مطلوب. في مثل هذا الوضع، يتناقص تأثير الرموز البعيدة في Transformer تقريباً كمقلوب المسافة، وتتناقص Mamba بشكل أسي، وتتناقص ذيل Sessa أكثر ببطء، مما يوفر نظرياً استخراجاً أكثر استقراراً على مسافة طويلة.

في تكوين Sessa متعدد الطبقات، وفقاً للمؤلف، قد يدعم حتى ملفات الاسترجاع بدون تدهور المسافة. إلى جانب منشور Habr، تم نشر ورقة arXiv وكود، والبحث نفسه يعلن عن تجارب قابلة للمقارنة على السياق الطويل. ومع ذلك، يوضح المؤلف مباشرة الحد الحالي للنتيجة: الآن هذا في المقام الأول نظرية وفرضية معمارية، والخطوة المهمة التالية هي التدريب على نطاق عدة مليارات من المعاملات والتحقق خارج الأوضاع المضبوطة بعناية.

باختصار، المادة مثيرة للاهتمام ليس فقط لـ Sessa نفسها، بل لطريقة الشرح. فهي تختزل Transformer و Mamba والمعمارية الجديدة إلى مخطط مشترك وتوضح بالضبط حيث تختلف خصائص الذاكرة الخاصة بهم. بالنسبة لأولئك الذين يتابعون سباق نماذج السياق الطويل، هذا إشارة مهمة: قد يأتي بديل ملحوظ للمحولات ليس من الرفض الكامل للانتباه، بل من دمجه مع ذاكرة متكررة أكثر تعبيراً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…