أطلق فريق Qwen مكتبة FlashQLA: تسريع الانتباه الخطي حتى 3 مرات على معالجات NVIDIA Hopper

أطلق فريق QwenLM مكتبة FlashQLA — وهي مكتبة kernels مفتوحة المصدر للانتباه الخطي التي تسرع المسارات للأمام والخلف لـ Gated Delta Network في وضع Chunked Prefill حتى ثلاث مرات على معالج GPU من NVIDIA Hopper. الأهداف الرئيسية هي التدريب المسبق على نطاق واسع والاستدلال الوكيلي على أجهزة الحافة. تفعل المكتبة للعمارات الخطية ما فعلته FlashAttention للمحولات.

Khamidun Zhemal

رصد الذكاء الاصطناعي · MarkTechPost

30 أبريل 2026· 2 د

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News

أطلق فريق Qwen مكتبة FlashQLA: تسريع الانتباه الخطي حتى 3 مرات على معالجات NVIDIA Hopper — المصدر: MarkTechPost. كولاج: Hamidun News.

◐ استمع للمقال

أطلقت فريق QwenLM مكتبة FlashQLA — مكتبة نوى مفتوحة المصدر تسرع عمليات الانتباه الخطي بمعامل يصل إلى ثلاث مرات على معمارية GPU من NVIDIA Hopper. تستهدف المكتبة سيناريوهين: التدريب المسبق على نطاق واسع لنماذج اللغة والاستدلال الموزع على أجهزة الحافة.

ما هو FlashQLA

يحسّن FlashQLA الممرات الأمامية والخلفية لمعمارية Gated Delta Network (GDN) في وضع Chunked Prefill. GDN هو متغير من الانتباه الخطي: آلية بتعقيد حسابي O(n) على طول السياق، بخلاف O(n²) للمحولات القياسية. في الواقع العملي، يعني هذا أن النماذج المستندة إلى GDN يمكنها التعامل مع السياقات الطويلة جداً دون نمو متفجر في استهلاك الذاكرة.

المشكلة أن المزايا النظرية لا تتحول إلى سرعة حقيقية بدون نوى فعالة منخفضة المستوى. يملأ FlashQLA هذه الفجوة. يشير الاسم إلى FlashAttention — مكتبة جعلت الانتباه التربيعي عملياً للتسلسلات الطويلة من خلال تحسين الذاكرة على أساس البلاط. يحل FlashQLA مشكلة مماثلة للمعماريات الخطية: فهو يوفر طبقة بنية تحتية بدونها لا تحقق النهج الواعد نظرياً أرقاماً حقيقية.

تسريع 3×: كيف يعمل

يتحقق كسب الأداء من خلال التحسين العميق لـ NVIDIA Hopper (H100/H200) — وحدات GPU التي تهيمن على مراكز البيانات السحابية الحديثة. تتضمن معمارية Hopper وحدات متخصصة للتعامل مع منطق الحساب المتكرر والمتفرق، وهو ما يتماشى بشكل جيد مع متطلبات GDN.

تغطي المكتبة عدة سيناريوهات:

التدريب المسبق على نطاق واسع — يقلل الممر الخلفي المسرع من وقت وتكلفة التدريب
الاستدلال على الحافة — التنفيذ الفعال بدون وحدة GPU سحابية قوية، وهام للنشر على الأجهزة
Chunked Prefill — تقسيم السياق المدخل الطويل إلى كتل يقلل استهلاك الذاكرة الذروة
الاستدلال الموزع — استدعاءات نموذج متعددة في تيار واحد بدون تراكم التأخيرات
المعماريات الهجينة — التوافق مع النماذج التي تجمع بين الانتباه الخطي والقياسي

قبل ظهور FlashQLA، كان المطورون مع معماريات GDN يحصلون على مقاييس ضعيفة ليس بسبب قصور معماري، بل بسبب نقص النوى المحسنة. أنشأ هذا انطباعاً خاطئاً عن عدم القدرة على المنافسة للانتباه الخطي.

لماذا هذا يهم Alibaba و Qwen

فريق Qwen من Alibaba Cloud هو أحد أكثر اللاعبين نشاطاً في تطوير LLM مفتوح المصدر. تسعى سلسلة نماذج Qwen باستمرار لتوسيع الإمكانيات: السياق الطويل والتعددية الوسائطية والإصدارات المتخصصة للكود والرياضيات ودعم استدعاءات الأدوات.

إن إطلاق FlashQLA هو رهان بنية تحتية وليس مجرد منتج بحثي. تستثمر Alibaba في فكرة أن المعماريات الخطية والهجينة ستحتل مكانة مهمة في الجيل القادم من LLMs — خاصة حيث يكون السياق الطويل وكفاءة الموارد مهمين. التركيز على Hopper تحديداً وليس على أجيال GPU الأقدم، يشير إلى استهداف سيناريوهات الإنتاج وليس ظروف المختبر.

ماذا يعني هذا

FlashQLA إشارة إلى أن المعماريات الخطية تنتقل من مرحلة البحث إلى مرحلة الهندسة. يجعل تسريع 3× على الأجهزة الحالية نماذج GDN قادرة على المنافسة الحقيقية مع المحولات في مهام السياق الطويل والاستدلال الموزع. بالنسبة للمطورين الذين يعملون مع معماريات غير محول، هذا هو وصول الأدوات المناسبة — وليس فقط الوعود النظرية.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →