FlashAttention-3 يضاعف سرعة نماذج transformer عند استخدام GPU بنسبة 75%
قدمت Together AI خوارزمية FlashAttention-3، وهي خوارزمية جديدة لتسريع نماذج transformer في النماذج اللغوية الكبيرة. وهي تعمل بسرعة تعادل ضعف FlashAttention-2. و

◐ استمع للمقال
قدمت Together AI خوارزمية FlashAttention-3، وهي خوارزمية جديدة لتسريع نماذج transformer في النماذج اللغوية الكبيرة. وهي تعمل بسرعة تعادل ضعف FlashAttention-2. ويصل استخدام GPU H100 الآن إلى 75% بدلًا من 35% سابقًا. وتدعم الخوارزمية حسابات FP8 منخفضة الدقة مع الحفاظ على دقة النتائج. ويتيح ذلك لـ LLM معالجة سلاسل نصية طويلة بكفاءة أكبر من دون إبطاء الحسابات، كما يخفض التكاليف.