FlashAttention-4: como a Together AI acelerou a atenção nas GPUs Blackwell
O FlashAttention-4 redesenhou o kernel de atenção especificamente para Blackwell. O ganho de desempenho vem da nova tensor memory (TMEM) e do modo 2-CTA MMA, qu

◐ Ouvir artigo
O FlashAttention-4 redesenhou o kernel de atenção especificamente para Blackwell. O ganho de desempenho vem da nova tensor memory (TMEM) e do modo 2-CTA MMA, que resolvem o gargalo — não na velocidade das operações matriciais, mas na SFU para softmax e na memória. Resultado: 1605 TFLOPs/s (71% de utilização), 1.3× vs cuDNN e 2.7× vs Triton.