FlashAttention-4 : comment Together AI a accéléré l’attention sur les GPU Blackwell
FlashAttention-4 a repensé le noyau d’attention spécialement pour Blackwell. L’accélération vient de la nouvelle tensor memory (TMEM) et du mode 2-CTA MMA, qui

◐ Écouter l'article
FlashAttention-4 a repensé le noyau d’attention spécialement pour Blackwell. L’accélération vient de la nouvelle tensor memory (TMEM) et du mode 2-CTA MMA, qui résolvent le goulet d’étranglement — non pas dans la vitesse des opérations matricielles, mais dans la SFU pour softmax et dans la mémoire. Résultat : 1605 TFLOPs/s (71 % d’utilisation), 1.3× vs cuDNN et 2.7× vs Triton.