Together AI Blog→ original

FlashAttention-4 : comment Together AI a accéléré l’attention sur les GPU Blackwell

FlashAttention-4 a repensé le noyau d’attention spécialement pour Blackwell. L’accélération vient de la nouvelle tensor memory (TMEM) et du mode 2-CTA MMA, qui

FlashAttention-4 : comment Together AI a accéléré l’attention sur les GPU Blackwell
Source : Together AI Blog. Collage: Hamidun News.
◐ Écouter l'article

FlashAttention-4 a repensé le noyau d’attention spécialement pour Blackwell. L’accélération vient de la nouvelle tensor memory (TMEM) et du mode 2-CTA MMA, qui résolvent le goulet d’étranglement — non pas dans la vitesse des opérations matricielles, mais dans la SFU pour softmax et dans la mémoire. Résultat : 1605 TFLOPs/s (71 % d’utilisation), 1.3× vs cuDNN et 2.7× vs Triton.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…