FlashAttention-4: كيف سرّعت Together AI آلية الانتباه على وحدات GPU Blackwell
أعادت FlashAttention-4 تصميم نواة الانتباه خصيصًا لـBlackwell. ويأتي التسريع من tensor memory (TMEM) الجديدة ووضع 2-CTA MMA، اللذين يعالجان عنق الزجاجة — ليس في

◐ استمع للمقال
أعادت FlashAttention-4 تصميم نواة الانتباه خصيصًا لـBlackwell. ويأتي التسريع من tensor memory (TMEM) الجديدة ووضع 2-CTA MMA، اللذين يعالجان عنق الزجاجة — ليس في سرعة العمليات المصفوفية، بل في SFU الخاصة بـsoftmax وفي الذاكرة. النتيجة: 1605 TFLOPs/s (استخدام 71%)، و1.3× مقابل cuDNN و2.7× مقابل Triton.