قدمت Nous Research Lighthouse Attention لتسريع تدريب نماذج LLM
قدمت Nous Research Lighthouse Attention، وهي آلية انتباه هرمية جديدة لتسريع تدريب نماذج اللغة الكبيرة بشكل ملحوظ. وعلى نموذج Llama-3 يضم 530M معلمة مع سياق يبلغ

قدمت Nous Research تقنية Lighthouse Attention — وهي طريقة جديدة لتحسين عملية تدريب نماذج اللغة الكبيرة على السياقات الطويلة. تعمل هذه الآلية حصراً أثناء التدريب المسبق وتُعطَّل بالكامل بعد اكتمال هذه العملية، دون التأثير على معمارية النموذج النهائي أو سلوكه في المسار الأمامي.
كيفية عمل Lighthouse Attention
تُمثل تقنية Lighthouse Attention آلية انتباه هرمية انتقائية تغلِّف آلية الضرب النقطي المُقيَّس القياسية (scaled dot-product attention) أثناء التدريب المسبق للنموذج. من الناحية العملية، هذا يعني أنه خلال كل خطوة عبر طبقة الانتباه، يستخدم النموذج آلية انتقائية خاصة بدلاً من الانتباه الكامل لجميع الرموز في السياق.
يكمن الفرق الأساسي عن الأساليب السابقة (مثل NSA و HISA) في التجميع المتماثل لجميع مكونات آلية الانتباه. كانت الطرق السابقة تختزل المفاتيح والقيم فقط (K و V)، متجاهلة الاستعلامات، بينما تجمِّع Lighthouse الاستعلامات والمفاتيح والقيم (Q و K و V) في آن واحد عبر هرم دقة متعدد المستويات. هذا يضمن اختزالاً حسابياً أكثر توازناً وكفاءة على جميع المستويات.
من الناحية التقنية، هذا يقلل التعقيد الحسابي لعملية الانتباه من O(N·S·d) إلى O(S²·d)، حيث N هو طول السياق الكامل، و S هو حجم المتتالية المضغوطة المختارة، و d هو بُعد الطبقة المخفية للنموذج. بعد الاختيار، يعمل FlashAttention القياسي على المتتالية الكثيفة الصغيرة، مما يوفِّر بشكل كبير كلاً من موارد الحوسبة وذاكرة GPU المطلوبة.
نتائج مثيرة للإعجاب
اختبرت Nous Research تقنية Lighthouse Attention على نموذج بحجم 530 مليون معامل بأسلوب Llama-3 مع سياق يبلغ 98 ألف رمز — وهو بالفعل سياق طويل جداً للاختبار. أظهرت النتائج تحسنيات كبيرة ومتسقة في أداء عملية التدريب:
- تسريع بمعدل 1.40–1.69 مرة في التدريب الشامل مقارنة بتنفيذ cuDNN SDPA الأساسي على GPU
- خسارة تدريب نهائية قابلة للمقارنة أو أقل، مما يضمن عدم حدوث فقدان في جودة النموذج ودقته
- توافق كامل مع بنية FlashAttention الموجودة والأطر القياسية مثل PyTorch
يعني هذا أن المنظمات ستتمكن من تدريب النماذج الكبيرة بسرعة أكبر بنسبة 40–70 في المائة دون المساس بالجودة أو الدقة. بالنسبة للنماذج الكبيرة المدرَّبة على مجموعات بيانات ضخمة، يترجم هذا إلى توفيرات محددة تبلغ أسابيع من وقت الحوسبة على مجموعات GPU مكلفة.
التطبيق العملي والقابلية للتوسع
تكمن الميزة الرئيسية لتقنية Lighthouse Attention في بساطة تطبيقها وعدم تأثيرها على سلوك النموذج النهائي. تُستخدم الآلية حصراً أثناء التدريب المسبق وتُعطَّل تلقائياً بعد اكتمال هذه المرحلة الحساسة. يعني هذا أن النموذج المُدرَّب باستخدام Lighthouse متوافق بالكامل مع التطبيقات والخدمات وسير العمل الموجودة دون أي تعديلات على الرمز أو البنية الأساسية أو النشر.
يكون التسريع ذا قيمة خاصة للمنظمات التي تدرِّب نماذج كبيرة على سياقات تبلغ عشرات ومئات الآلاف من الرموز. تشمل التطبيقات النموذجية: تحليل المستندات والتقارير الطويلة، البحث النصي الكامل في مستودعات المعرفة الكبيرة، كتابة وتحليل الأكواد على سياقات تتجاوز 100K من الرموز، معالجة الحوارات التي تتضمن سجلاً عميقاً من المراسلات، العمل مع الأوراق العلمية والبراءات.
يعني كل جزء من مائة من توفير موارد الحوسبة توفيرات محددة في استهلاك الكهرباء وتوفيرات مالية كبيرة في تكاليف الحوسبة السحابية.
الأهمية بالنسبة للبحث والصناعة
يظل تحسين عمليات تدريب المحولات مجالاً نشطاً وخصباً للبحث، رغم عقدين من الاستثمار في الآليات الأساسية للمعمارية. تُوضح تقنية Lighthouse Attention بجلاء أنه حتى في معماريات الانتباه المدروسة جيداً والمصقولة، لا يزال هناك مجال للابتكار والتحسينات والتحسينات غير المتوقعة.
إذا تم تبني طرق مماثلة من قبل المجتمع البحثي وتنفيذها على نطاق واسع في الأطر مفتوحة المصدر الشهيرة مثل PyTorch و HuggingFace Transformers وغيرها، فقد يؤدي هذا إلى خفض كبير في حاجز الدخول للمنظمات والشركات الناشئة ومجموعات البحث التي تريد تدريب نماذج اللغة الكبيرة الخاصة بها دون الحاجة إلى موارد حسابية ضخمة وميزانيات هائلة.