FlashAttention-4: كيف سرّعت Together AI آلية الانتباه على وحدات GPU Blackwell

Q: Источник материала?

Оригинальная публикация на Together AI Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-21. Время чтения: 3 мин.

أعادت FlashAttention-4 تصميم نواة الانتباه خصيصًا لـBlackwell. ويأتي التسريع من tensor memory (TMEM) الجديدة ووضع 2-CTA MMA، اللذين يعالجان عنق الزجاجة — ليس في

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Together AI Blog

2026-05-21· 2 د

FlashAttention-4: كيف سرّعت Together AI آلية الانتباه على وحدات GPU Blackwell — المصدر: Together AI Blog. كولاج: Hamidun News.

◐ استمع للمقال

أعادت FlashAttention-4 تصميم نواة الانتباه خصيصًا لـBlackwell. ويأتي التسريع من tensor memory (TMEM) الجديدة ووضع 2-CTA MMA، اللذين يعالجان عنق الزجاجة — ليس في سرعة العمليات المصفوفية، بل في SFU الخاصة بـsoftmax وفي الذاكرة. النتيجة: 1605 TFLOPs/s (استخدام 71%)، و1.3× مقابل cuDNN و2.7× مقابل Triton.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com