The Qwen team released FlashQLA: accelerating linear attention up to 3× on NVIDIA Hopper
The QwenLM team released FlashQLA — an open-source kernel library for linear attention that accelerates forward and backward passes of Gated Delta Network in Ch

Команда QwenLM выпустила FlashQLA — открытую библиотеку ядер, которая ускоряет операции линейного внимания до трёх раз на GPU архитектуры NVIDIA Hopper. Библиотека нацелена на два сценария: крупномасштабное предобучение языковых моделей и агентный инференс на edge-устройствах.
Что такое
FlashQLA FlashQLA оптимизирует прямой и обратный проходы для архитектуры Gated Delta Network (GDN) в режиме Chunked Prefill. GDN — это разновидность линейного внимания: механизм с вычислительной сложностью O(n) по длине контекста, в отличие от O(n²) у стандартных трансформеров. На практике это означает, что модели на основе GDN могут работать с очень длинными контекстами без взрывного роста потребления памяти. Проблема в том, что теоретические преимущества не конвертируются в реальную скорость без эффективных низкоуровневых ядер. Именно этот пробел закрывает FlashQLA. Название отсылает к FlashAttention — библиотеке, которая в своё время сделала квадратичное внимание практичным для длинных последовательностей через тайловую оптимизацию памяти. FlashQLA решает аналогичную задачу для линейных архитектур: предоставляет инфраструктурный слой, без которого теоретически перспективный подход не даёт реальных чисел.
Ускорение в 3×: за счёт чего
Прирост производительности достигается через глубокую оптимизацию под NVIDIA Hopper (H100/H200) — GPU, доминирующие в современных облачных дата-центрах. Архитектура Hopper включает специализированные блоки для работы с рекуррентной и разреженной вычислительной логикой, что хорошо сочетается с требованиями GDN. Библиотека покрывает несколько сценариев: Крупномасштабное предобучение — ускоренный обратный проход сокращает время и стоимость обучения Edge-инференс — эффективное исполнение без мощного облачного GPU, важно для развёртывания на устройствах Chunked Prefill — разбивка длинного входного контекста на блоки снижает пиковое потребление памяти Агентный инференс — многократный вызов модели в одном потоке без накопления задержек * Гибридные архитектуры — совместимость с моделями, которые комбинируют линейное и стандартное внимание До появления FlashQLA разработчики с GDN-архитектурами получали слабые бенчмарки не из-за недостатков самой архитектуры, а из-за отсутствия оптимизированных ядер.
Это создавало ложное впечатление о неконкурентоспособности линейного внимания.
Зачем это
Alibaba и Qwen Команда Qwen из Alibaba Cloud — один из наиболее активных игроков в open-source LLM-разработке. Серия моделей Qwen последовательно расширяет возможности: длинный контекст, мультимодальность, специализированные версии для кода и математики, поддержка инструментальных вызовов. Выпуск FlashQLA — это инфраструктурная ставка, а не просто исследовательский артефакт. Alibaba вкладывается в то, что линейные и гибридные архитектуры займут значимую нишу в следующем поколении LLM — особенно там, где важны длинный контекст и ресурсная эффективность. Ориентация именно на Hopper, а не на более старые поколения GPU, говорит о прицеле на продакшн-сценарии, а не на лабораторные условия.
Что это значит
FlashQLA — сигнал о том, что линейные архитектуры переходят из исследовательской фазы в инженерную. Ускорение до 3× на актуальном железе делает GDN-модели реально конкурентоспособными с трансформерами в задачах с длинным контекстом и агентным инференсом. Для разработчиков, работающих с нетрансформерными архитектурами, это появление нормального инструментария — а не только теоретических обещаний.