MarkTechPost→ المصدر

أطلق فريق Qwen مكتبة FlashQLA: تسريع الانتباه الخطي حتى 3 مرات على معالجات NVIDIA Hopper

أطلق فريق QwenLM مكتبة FlashQLA — وهي مكتبة kernels مفتوحة المصدر للانتباه الخطي التي تسرع المسارات للأمام والخلف لـ Gated Delta Network في وضع Chunked…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلق فريق Qwen مكتبة FlashQLA: تسريع الانتباه الخطي حتى 3 مرات على معالجات NVIDIA Hopper
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت فريق QwenLM مكتبة FlashQLA — مكتبة نوى مفتوحة المصدر تسرع عمليات الانتباه الخطي بمعامل يصل إلى ثلاث مرات على معمارية GPU من NVIDIA Hopper. تستهدف المكتبة سيناريوهين: التدريب المسبق على نطاق واسع لنماذج اللغة والاستدلال الموزع على أجهزة الحافة.

ما هو FlashQLA

يحسّن FlashQLA الممرات الأمامية والخلفية لمعمارية Gated Delta Network (GDN) في وضع Chunked Prefill. GDN هو متغير من الانتباه الخطي: آلية بتعقيد حسابي O(n) على طول السياق، بخلاف O(n²) للمحولات القياسية. في الواقع العملي، يعني هذا أن النماذج المستندة إلى GDN يمكنها التعامل مع السياقات الطويلة جداً دون نمو متفجر في استهلاك الذاكرة.

المشكلة أن المزايا النظرية لا تتحول إلى سرعة حقيقية بدون نوى فعالة منخفضة المستوى. يملأ FlashQLA هذه الفجوة. يشير الاسم إلى FlashAttention — مكتبة جعلت الانتباه التربيعي عملياً للتسلسلات الطويلة من خلال تحسين الذاكرة على أساس البلاط. يحل FlashQLA مشكلة مماثلة للمعماريات الخطية: فهو يوفر طبقة بنية تحتية بدونها لا تحقق النهج الواعد نظرياً أرقاماً حقيقية.

تسريع 3×: كيف يعمل

يتحقق كسب الأداء من خلال التحسين العميق لـ NVIDIA Hopper (H100/H200) — وحدات GPU التي تهيمن على مراكز البيانات السحابية الحديثة. تتضمن معمارية Hopper وحدات متخصصة للتعامل مع منطق الحساب المتكرر والمتفرق، وهو ما يتماشى بشكل جيد مع متطلبات GDN.

تغطي المكتبة عدة سيناريوهات:

  • التدريب المسبق على نطاق واسع — يقلل الممر الخلفي المسرع من وقت وتكلفة التدريب
  • الاستدلال على الحافة — التنفيذ الفعال بدون وحدة GPU سحابية قوية، وهام للنشر على الأجهزة
  • Chunked Prefill — تقسيم السياق المدخل الطويل إلى كتل يقلل استهلاك الذاكرة الذروة
  • الاستدلال الموزع — استدعاءات نموذج متعددة في تيار واحد بدون تراكم التأخيرات
  • المعماريات الهجينة — التوافق مع النماذج التي تجمع بين الانتباه الخطي والقياسي

قبل ظهور FlashQLA، كان المطورون مع معماريات GDN يحصلون على مقاييس ضعيفة ليس بسبب قصور معماري، بل بسبب نقص النوى المحسنة. أنشأ هذا انطباعاً خاطئاً عن عدم القدرة على المنافسة للانتباه الخطي.

لماذا هذا يهم Alibaba و Qwen

فريق Qwen من Alibaba Cloud هو أحد أكثر اللاعبين نشاطاً في تطوير LLM مفتوح المصدر. تسعى سلسلة نماذج Qwen باستمرار لتوسيع الإمكانيات: السياق الطويل والتعددية الوسائطية والإصدارات المتخصصة للكود والرياضيات ودعم استدعاءات الأدوات.

إن إطلاق FlashQLA هو رهان بنية تحتية وليس مجرد منتج بحثي. تستثمر Alibaba في فكرة أن المعماريات الخطية والهجينة ستحتل مكانة مهمة في الجيل القادم من LLMs — خاصة حيث يكون السياق الطويل وكفاءة الموارد مهمين. التركيز على Hopper تحديداً وليس على أجيال GPU الأقدم، يشير إلى استهداف سيناريوهات الإنتاج وليس ظروف المختبر.

ماذا يعني هذا

FlashQLA إشارة إلى أن المعماريات الخطية تنتقل من مرحلة البحث إلى مرحلة الهندسة. يجعل تسريع 3× على الأجهزة الحالية نماذج GDN قادرة على المنافسة الحقيقية مع المحولات في مهام السياق الطويل والاستدلال الموزع. بالنسبة للمطورين الذين يعملون مع معماريات غير محول، هذا هو وصول الأدوات المناسبة — وليس فقط الوعود النظرية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…