Together AI Blog→ المصدر

FlashAttention-4: كيف سرّعت Together AI آلية الانتباه على وحدات GPU Blackwell

أعادت FlashAttention-4 تصميم نواة الانتباه خصيصًا لـBlackwell. ويأتي التسريع من tensor memory (TMEM) الجديدة ووضع 2-CTA MMA، اللذين يعالجان عنق الزجاجة — ليس في

FlashAttention-4: كيف سرّعت Together AI آلية الانتباه على وحدات GPU Blackwell
المصدر: Together AI Blog. كولاج: Hamidun News.
◐ استمع للمقال

أعادت FlashAttention-4 تصميم نواة الانتباه خصيصًا لـBlackwell. ويأتي التسريع من tensor memory (TMEM) الجديدة ووضع 2-CTA MMA، اللذين يعالجان عنق الزجاجة — ليس في سرعة العمليات المصفوفية، بل في SFU الخاصة بـsoftmax وفي الذاكرة. النتيجة: 1605 TFLOPs/s (استخدام 71%)، و1.3× مقابل cuDNN و2.7× مقابل Triton.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…