L'équipe Qwen a lancé FlashQLA : accélération de l'attention linéaire jusqu'à 3× sur NVIDIA Hopper

Q: Quelle est la source ?

Publication originale sur MarkTechPost. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

30 avr. 2026. Temps de lecture : 3 min.

L'équipe QwenLM a lancé FlashQLA — une bibliothèque de kernels open-source pour l'attention linéaire qui accélère les passes avant et arrière de Gated Delta…

Rédaction de Hamidun News

Veille IA · MarkTechPost

30 avr. 2026· 2 min

Traité par IA depuis MarkTechPost ; édité par Hamidun News

L'équipe Qwen a lancé FlashQLA : accélération de l'attention linéaire jusqu'à 3× sur NVIDIA Hopper — Source : MarkTechPost. Collage: Hamidun News.

◐ Écouter l'article

L'équipe QwenLM a lancé FlashQLA — une bibliothèque de noyaux open-source qui accélère les opérations d'attention linéaire jusqu'à trois fois sur l'architecture GPU NVIDIA Hopper. La bibliothèque cible deux scénarios : le préentraînement à grande échelle de modèles de langage et l'inférence d'agent sur les appareils edge.

Qu'est-ce que FlashQLA

FlashQLA optimise les passages avant et arrière pour l'architecture Gated Delta Network (GDN) en mode Chunked Prefill. GDN est une variante d'attention linéaire : un mécanisme avec complexité informatique O(n) sur la longueur du contexte, contrairement à O(n²) pour les transformers standard. En pratique, cela signifie que les modèles basés sur GDN peuvent fonctionner avec des contextes très longs sans croissance explosive de la consommation de mémoire.

Le problème est que les avantages théoriques ne se convertissent pas en vitesse réelle sans noyaux efficaces de bas niveau. FlashQLA comble cette lacune. Le nom fait référence à FlashAttention — une bibliothèque qui a rendu l'attention quadratique pratique pour les longues séquences grâce à l'optimisation mémoire basée sur les tuiles. FlashQLA résout un problème analogue pour les architectures linéaires : elle fournit une couche d'infrastructure sans laquelle une approche théoriquement prometteuse ne donne pas de chiffres réels.

Accélération 3× : Comment Ça Fonctionne

Le gain de performance est réalisé grâce à l'optimisation profonde pour NVIDIA Hopper (H100/H200) — les GPUs qui dominent les centres de données en nuage modernes. L'architecture Hopper inclut des unités spécialisées pour la logique de calcul récurrente et dispersée, ce qui s'aligne bien avec les exigences de GDN.

La bibliothèque couvre plusieurs scénarios :

Préentraînement à grande échelle — passage arrière accéléré réduit le temps et le coût de l'entraînement
Inférence sur edge — exécution efficace sans GPU en nuage puissant, important pour le déploiement sur appareil
Chunked Prefill — division d'un contexte d'entrée long en blocs réduit la consommation de mémoire maximale
Inférence d'agent — appels de modèle multiples dans un seul flux sans accumulation de latences
Architectures hybrides — compatibilité avec les modèles qui combinent l'attention linéaire et standard

Avant FlashQLA, les développeurs avec des architectures GDN obtenaient de faibles benchmarks non pas à cause de défauts architecturaux, mais à cause du manque de noyaux optimisés. Cela créait une fausse impression d'absence de compétitivité de l'attention linéaire.

Pourquoi Cela Importe pour Alibaba et Qwen

L'équipe Qwen d'Alibaba Cloud est l'un des acteurs les plus actifs du développement de LLM open-source. La série de modèles Qwen élargit constamment les capacités : contexte long, multimodalité, versions spécialisées pour le code et les mathématiques, support des appels d'outils.

Le lancement de FlashQLA est un pari infrastructurel, pas seulement un artefact de recherche. Alibaba investit dans l'idée que les architectures linéaires et hybrides occuperont une niche significative dans la prochaine génération de LLMs — particulièrement où le contexte long et l'efficacité des ressources importent. La mise au point spécifiquement sur Hopper, plutôt que sur les générations GPU plus anciennes, signale une visée sur les scénarios de production, pas les conditions de laboratoire.

Ce Que Cela Signifie

FlashQLA signale que les architectures linéaires passent de la phase de recherche à la phase d'ingénierie. L'accélération 3× sur le matériel actuel rend les modèles GDN véritablement compétitifs avec les transformers pour les tâches de contexte long et d'inférence d'agent. Pour les développeurs travaillant avec des architectures non-transformer, c'est l'arrivée d'outils appropriés — pas seulement des promesses théoriques.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite