NVIDIA تقدم Gated DeltaNet-2: الانتباه الخطي مع بوابات ذاكرة منفصلة
قدمت NVIDIA Gated DeltaNet-2 — آلية انتباه خطي جديدة للنماذج اللغوية الكبيرة. الفرق الرئيسي: بدلاً من بوابة عددية واحدة، تستخدم البنية الجديدة قنوات منفصلة للتح
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
قدمت NVIDIA آلية انتباه خطية جديدة تُدعى Gated DeltaNet-2، التي تحسّن بشكل كبير إدارة الذاكرة في نماذج اللغة الكبيرة. الفرق الرئيسي هو الإدارة المنفصلة لحذف البيانات القديمة وكتابة البيانات الجديدة، بدلاً من بوابة عددية واحدة مستخدمة في الأجيال السابقة.
المشكلة في الذاكرة في النماذج الخطية
آليات الانتباه الخطي تحل مشكلة حرجة في محولات التحويل: فهي تضغط ذاكرة التخزين المؤقت KV غير المحدودة إلى حالة تكرارية ثابتة. وهذا يسمح بمعالجة النصوص الطويلة بكفاءة أكبر ويقلل بشكل كبير من استهلاك الذاكرة، وهو أمر حاسم للتطبيقات العملية والأجهزة ذات الموارد المحدودة. ومع ذلك، هناك مشكلة خطيرة: تعديل الذاكرة دون الإضرار بالاتصالات القائمة هو مهمة صعبة للغاية. تحتاج النماذج إلى تعلم حقائق جديدة وفي نفس الوقت الحفاظ على المعرفة القديمة. أضف معلومات جديدة وتخاطر بالكتابة فوق الارتباطات المهمة. انسَ القديم وتخسر السياق. هذا هو الصراع الكلاسيكي بين التعلم والاحتفاظ.
استخدمت النماذج السابقة مثل Gated DeltaNet و KDA بوابة عددية واحدة لإدارة كلا العمليتين في نفس الوقت: حذف البيانات القديمة وكتابة البيانات الجديدة. هذا ينشئ صراعاً لا حل له: رافعة واحدة لا يمكنها تنفيذ مهمتين متناقضتين بكفاءة. والنتيجة هي أن جودة النموذج تعاني وأداؤه في المهام المعقدة تنخفض.
كيف أعادت DeltaNet-2 تصميم البنية المعمارية
قررت NVIDIA إعادة تصميم جذرية لنظام إدارة الذاكرة. بدلاً من بوابة عددية واحدة، يستخدم Gated DeltaNet-2 بوابتين مستقلتين لكل قناة:
- بوابة الحذف b_t على محور المفاتيح — تدير حذف المعلومات المتقادمة
- بوابة الكتابة w_t على محور القيم — تتحكم في إضافة البيانات الجديدة
- كل بوابة تعمل على مستوى القناة (channel-wise)، وليس كرقم واحد لكل الذاكرة
- هذا يسمح للنموذج بالموازنة بمرونة أكبر بين النسيان والتعلم
- تحتوي البنية المعمارية على 1.3 مليار معامل، تم تدريبها على 100 مليار رمز
يسمح هذا الفصل للنموذج بالفهم: متى يحرر المعلومات القديمة ومتى يحافظ بحذر وينقح الاتصالات الموجودة في الذاكرة. كل قناة ذاكرة يمكنها اتخاذ قرارات مستقلة، مما يزيد بشكل كبير من مرونة واستجابة النموذج لأنواع مختلفة من البيانات والمهام المعقدة. والنتيجة هي أن النموذج يمكنه العمل مع تسلسلات نصية أطول دون فقدان الجودة. الذاكرة لا تصبح مجرد مستودع بيانات، بل نظام ذكي يعرف ما يجب نسيانه وما يجب الاحتفاظ به.
نتائج مثيرة للإعجاب على المعايير
في الاختبارات الرسمية، أظهرت Gated DeltaNet-2 ميزة ملحوظة على المنافسين:
- تفوقت على Mamba-2 في مهام نمذجة اللغة القياسية
- تجاوزت Gated DeltaNet الأصلي و KDA في الأداء العامة
- أظهرت نتائج أفضل من Mamba-3 في مهام السياق الطويل
- على RULER S-NIAH (البحث عن إبرة في كومة قش) لديها التحسينات الأكثر إثارة للإعجاب
- على استرجاع المفاتيح المتعددة تظهر تحسناً حاسماً للممارسة العملية
ما يستحق الملاحظة بشكل خاص هي النتائج في مهام التفكير بالفطرة السليمة. هذا ليس مجرد نمذجة لغة، بل فهم منطقي للعلاقات بين المفاهيم. تحسّن الإدارة المنفصلة للذاكرة ليس فقط سرعة الحوسبة، بل أيضاً جودة فهم الاتصالات المنطقية — وهذا دليل على أن القرارات المعمارية تؤثر بعمق على ذكاء النموذج.
ما الذي يعنيه هذا
يوضح Gated DeltaNet-2 مبدأً مهماً: كفاءة آليات الانتباه الخطي تعتمد ليس على فكرة الخطية في حد ذاتها، بل على التفاصيل المعمارية لتنفيذها. عندما يفصل المهندسون بشكل صحيح بين الوظائف (الحذف مقابل الكتابة)، يصبح النظام أسرع وأذكى في نفس الوقت. من الناحية العملية، هذا يعني: ستتمكن النماذج من معالجة المستندات التي تحتوي على مئات الآلاف من الرموز دون فقدان الجودة. هذا يفتح إمكانيات جديدة للتطبيقات التي تتطلب سياقاً طويلاً — من البحث الذكي في قواعد البيانات النصية الكبيرة إلى أنظمة حوار معقدة تحتاج إلى تذكر سجل المحادثة بأكمله.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.