Together AI Blog→ original

FlashAttention-4: como a Together AI acelerou a atenção nas GPUs Blackwell

O FlashAttention-4 redesenhou o kernel de atenção especificamente para Blackwell. O ganho de desempenho vem da nova tensor memory (TMEM) e do modo 2-CTA MMA, qu

FlashAttention-4: como a Together AI acelerou a atenção nas GPUs Blackwell
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

O FlashAttention-4 redesenhou o kernel de atenção especificamente para Blackwell. O ganho de desempenho vem da nova tensor memory (TMEM) e do modo 2-CTA MMA, que resolvem o gargalo — não na velocidade das operações matriciais, mas na SFU para softmax e na memória. Resultado: 1605 TFLOPs/s (71% de utilização), 1.3× vs cuDNN e 2.7× vs Triton.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…