Together AI Blog→ المصدر

FlashAttention-3 يضاعف سرعة نماذج transformer عند استخدام GPU بنسبة 75%

قدمت Together AI خوارزمية FlashAttention-3، وهي خوارزمية جديدة لتسريع نماذج transformer في النماذج اللغوية الكبيرة. وهي تعمل بسرعة تعادل ضعف FlashAttention-2. و

FlashAttention-3 يضاعف سرعة نماذج transformer عند استخدام GPU بنسبة 75%
المصدر: Together AI Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدمت Together AI خوارزمية FlashAttention-3، وهي خوارزمية جديدة لتسريع نماذج transformer في النماذج اللغوية الكبيرة. وهي تعمل بسرعة تعادل ضعف FlashAttention-2. ويصل استخدام GPU H100 الآن إلى 75% بدلًا من 35% سابقًا. وتدعم الخوارزمية حسابات FP8 منخفضة الدقة مع الحفاظ على دقة النتائج. ويتيح ذلك لـ LLM معالجة سلاسل نصية طويلة بكفاءة أكبر من دون إبطاء الحسابات، كما يخفض التكاليف.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…