FlashAttention-3 accélèrera les transformers deux fois plus vite avec 75% de charge GPU
Together AI a présenté FlashAttention-3 — un nouvel algorithme pour accélérer les transformers dans les grands modèles de langage. Il fonctionne deux fois plus
Traité par IA depuis Together AI Blog ; édité par Hamidun News
Together AI, NVIDIA et Meta ont lancé FlashAttention-3 — un algorithme amélioré pour accélérer l'attention dans les transformers. La nouvelle version utilise 75 % de la puissance du GPU moderne au lieu des 35 % précédents et fonctionne 1,5 à 2 fois plus rapidement sur les accélérateurs NVIDIA H100. C'est crucial : tandis que l'informatique en nuage devient plus chère et que les LLM exigent de plus en plus de ressources, chaque pour cent d'efficacité compte maintenant en argent.
Pourquoi c'était un goulot d'étranglement
L'attention (attention) — le cœur des transformers. Mais c'est la partie la plus coûteuse des calculs. Lors du traitement d'un long texte, elle nécessite une quantité quadratique de mémoire : doublez la longueur du contexte — et la mémoire nécessaire est quatre fois plus grande.
FlashAttention a résolu ce problème en 2022, en réorganisant les calculs pour lire/écrire en mémoire GPU plus efficacement. Cela a donné une accélération 2-4x et a permis aux LLM d'étendre le contexte de 4K tokens à 128K, et récemment à un million. Sans FlashAttention, de tels longs contextes étaient tout simplement impossibles.
Mais FlashAttention-2 s'est arrêtée à 35 % d'efficacité H100. Les nouveaux GPU de la série Hopper ont apporté des cœurs asynchrones (WGMMA) et des transferts de données asynchrones (TMA). FlashAttention-3 les utilise enfin.
Comment fonctionne l'accélération
FlashAttention-3 applique trois améliorations clés. Premièrement, l'asynchronicité. Les cœurs tensoriels et les systèmes de transfert de données fonctionnent simultanément sans s'attendre. C'est ce chevauchement entre les calculs et la mémoire qui procure l'accélération principale. Deuxièmement, l'entrelacement des opérations. Au lieu de calculer d'abord tous les multiplications matricielles par bloc puis softmax, l'algorithme les entrelace. Cela réduit la latence et améliore l'utilisation du cache. Troisièmement, la précision basse des calculs. FP8 — des nombres 8 bits au lieu de FP16 — nécessite deux fois moins de mémoire et permet deux fois plus d'opérations par seconde. FlashAttention-3 avec FP8 atteint près de 1,2 PFLOPS (pétaflops).
La qualité ne se perd-elle avec FP8 ?
Le principal risque de la basse précision est que les erreurs s'accumulent et gâchent les résultats. Mais les auteurs montrent que FlashAttention-3 avec FP8 a une erreur seulement 2,6 fois plus grande que l'attention FP8 de base. Et par rapport à FP16, l'erreur est à peine discernable. C'est important pour les longs contextes. Lorsqu'un LLM traite un million de tokens, les erreurs dans une couche d'attention s'accumulent à travers 70+ couches du modèle. FlashAttention-3 maintient ces erreurs sous contrôle, permettant d'utiliser FP8 sans perte de qualité.
Qui en bénéficiera
FlashAttention-3 apportera des avantages à différents scénarios :
- Entraînement de grands modèles — l'accélération permet d'économiser des mois de temps de calcul. Pour Meta, OpenAI cela signifie la possibilité d'entraîner plus de variantes avec le même budget. Les factures cloud baissent de 30-50%.
- Inférence rapide en production — un seul H100 peut servir plus d'utilisateurs simultanément, ce qui rend les API commerciales plus économiques
- Longs contextes — les systèmes RAG, l'analyse de gros documents, la recherche dans les archives fonctionnent maintenant sans ralentissement même sur un million de tokens
- Informatique mobile et edge — FP8 et la réduction mémoire permettent d'exécuter des modèles sur du matériel faible
L'algorithme est déjà intégré aux principales bibliothèques ML PyTorch, JAX et TensorFlow. Le code est publié sur GitHub, les développeurs ont commencé à l'implémenter.
Ce que cela signifie pour l'industrie
FlashAttention-3 arrive au bon moment. Les GPU cloud deviennent plus chers, la demande pour les LLM augmente, et les contextes s'allongent. Les algorithmes qui font fonctionner le matériel à 75 % de sa capacité au lieu de 35 % deviennent non seulement utiles — ils sont critiques pour l'économie.
Cela réduit le coût de l'entraînement des modèles, accélère le déploiement en production et ouvre des possibilités pour des applications qui n'étaient auparavant simplement pas rentables. Il y a déjà des entreprises qui se sont empressées d'intégrer FlashAttention-3 dans leurs systèmes et ont réalisé des économies notables sur leurs factures. Pour les chercheurs aussi, c'est une bonne nouvelle : on peut expérimenter plus vite, essayer plus de variantes d'architectures et de tailles de modèles.
*Meta est reconnue comme une organisation extrémiste et interdite en Russie.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.