FlashAttention-4: cómo Together AI aceleró la atención en las GPU Blackwell
FlashAttention-4 rediseñó el núcleo de atención específicamente para Blackwell. La aceleración la aportan la nueva tensor memory (TMEM) y el modo 2-CTA MMA, que

◐ Escuchar artículo
FlashAttention-4 rediseñó el núcleo de atención específicamente para Blackwell. La aceleración la aportan la nueva tensor memory (TMEM) y el modo 2-CTA MMA, que resuelven el cuello de botella: no está en la velocidad de las operaciones matriciales, sino en la SFU para softmax y en la memoria. Resultado: 1605 TFLOPs/s (71% de utilización), 1.3× vs cuDNN y 2.7× vs Triton.