Together AI Blog→ original

FlashAttention-4: cómo Together AI aceleró la atención en las GPU Blackwell

FlashAttention-4 rediseñó el núcleo de atención específicamente para Blackwell. La aceleración la aportan la nueva tensor memory (TMEM) y el modo 2-CTA MMA, que

FlashAttention-4: cómo Together AI aceleró la atención en las GPU Blackwell
Fuente: Together AI Blog. Collage: Hamidun News.
◐ Escuchar artículo

FlashAttention-4 rediseñó el núcleo de atención específicamente para Blackwell. La aceleración la aportan la nueva tensor memory (TMEM) y el modo 2-CTA MMA, que resuelven el cuello de botella: no está en la velocidad de las operaciones matriciales, sino en la SFU para softmax y en la memoria. Resultado: 1605 TFLOPs/s (71% de utilización), 1.3× vs cuDNN y 2.7× vs Triton.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…