FlashAttention-3 سيسرع المحولات بمعدل الضعف مع استخدام 75% من سعة معالج الرسومات
قدّمت Together AI تقنية FlashAttention-3 — خوارزمية جديدة لتسريع المحولات في النماذج اللغوية الضخمة. تعمل بسرعة تضاعف سرعة FlashAttention-2. يتم تحميل معالج الر
معالج بواسطة الذكاء الاصطناعي من Together AI Blog؛ بتحرير Hamidun News
أطلقت Together AI و NVIDIA و Meta تقنية FlashAttention-3 — خوارزمية محسّنة لتسريع آلية الانتباه في المحولات. تستخدم النسخة الجديدة 75% من قوة معالج الرسومات الحديث بدلاً من 35% السابقة وتعمل بسرعة 1.5-2 مرة أسرع على مسرعات NVIDIA H100. هذا أمر حاسم: حيث أن الحوسبة السحابية في ارتفاع سعري والنماذج اللغوية الضخمة تتطلب موارد أكثر، فإن كل نسبة مئوية من الكفاءة تحسب الآن بالمال.
لماذا كانت هذه نقطة الاختناق
آلية الانتباه (Attention) — قلب المحولات. لكنها الجزء الأغلى من الحسابات. عند معالجة نص طويل، تتطلب كمية ذاكرة تربيعية: ضاعف طول السياق — وستحتاج إلى أربع مرات أكثر من الذاكرة. حلّت FlashAttention هذه المشكلة منذ عام 2022 من خلال إعادة ترتيب الحسابات لقراءة/كتابة ذاكرة معالج الرسومات بكفاءة أكبر.
أعطى هذا تسريعاً بمعدل 2-4 أضعاف وسمح للنماذج اللغوية الضخمة بتوسيع السياق من 4K رمز إلى 128K، وقريباً إلى مليون. بدون FlashAttention، كانت هذه السياقات الطويلة غير قابلة للتنفيذ ببساطة. لكن FlashAttention-2 توقفت عند 35% من كفاءة H100.
أحضرت معالجات الرسومات الجديدة من سلسلة Hopper نوى غير متزامنة (WGMMA) ونقل بيانات غير متزامن (TMA). وأخيراً، تستخدم FlashAttention-3 هذه الميزات.
كيف يعمل التسريع
تطبق FlashAttention-3 ثلاث تحسينات رئيسية. أولاً، عدم التزامن. تعمل نوى الموتر وأنظمة نقل البيانات بشكل متزامن دون انتظار بعضها البعض. هذا التقاطع بين الحسابات والذاكرة — التسريع الرئيسي.
ثانياً، تداخل العمليات. بدلاً من حساب جميع عمليات الضرب المصفوفي الكتلي أولاً ثم softmax، تتبادل الخوارزمية بينها. هذا يقلل الكمون ويحسن استخدام الذاكرة المؤقتة.
ثالثاً، دقة حسابات منخفضة. FP8 — أرقام بثمانية بتات بدلاً من FP16 — تتطلب نصف الذاكرة وتسمح بضعف عدد العمليات في الثانية. تحقق FlashAttention-3 مع FP8 ما يقرب من 1.2 PFLOPS (بيتافلوبس).
هل تفقد الجودة مع FP8
المخاطر الرئيسية للدقة المنخفضة — تتراكم الأخطاء وتفسد النتائج. لكن المؤلفين يظهرون أن FlashAttention-3 مع FP8 له خطأ يزيد فقط 2.6 مرة عن آلية الانتباه الأساسية FP8. والخطأ من FP16 بالكاد ملحوظ. هذا مهم للسياقات الطويلة.
عندما تعالج نموذج لغوي ضخم مليون رمز، تتراكم الأخطاء في طبقة انتباه واحدة عبر 70+ طبقة في النموذج. تحافظ FlashAttention-3 على هذه الأخطاء تحت السيطرة، مما يسمح باستخدام FP8 بدون فقدان الجودة.
من سيستفيد من هذا
سيستفيد من FlashAttention-3 سيناريوهات مختلفة:
- تدريب النماذج الكبيرة — يوفر التسريع شهوراً من وقت الحوسبة. بالنسبة لـ Meta و OpenAI، هذا يعني إمكانية تدريب المزيد من المتغيرات بنفس الميزانية. تنخفض فواتير السحابة بنسبة 30-50%.
- الاستدلال السريع في الإنتاج — على معالج H100 واحد، يمكن خدمة المزيد من المستخدمين في نفس الوقت، مما يجعل واجهات برمجة التطبيقات التجارية أكثر اقتصاداً.
- السياقات الطويلة — أنظمة RAG وتحليل المستندات الكبيرة والبحث في الأرشيفات تعمل الآن بدون إبطاء حتى مع مليون رمز.
- الحوسبة المحمولة والحوسبة الطرفية — يسمح FP8 وتقليل الذاكرة بتشغيل النماذج على أجهزة ضعيفة.
تم بالفعل دمج الخوارزمية في مكتبات التعلم الآلي الرئيسية PyTorch و JAX و TensorFlow. تم نشر الكود على GitHub وبدأ المطورون في التطبيق.
ماذا يعني هذا للصناعة
تأتي FlashAttention-3 في الوقت المناسب. أسعار معالجات الرسومات السحابية في ارتفاع، والطلب على النماذج اللغوية الضخمة ينمو، والسياقات تصبح أطول. الخوارزميات التي تجعل الأجهزة تعمل بـ 75% من قوتها بدلاً من 35% لا تصبح مفيدة فقط — بل حاسمة للاقتصاد.
هذا يقلل تكلفة تدريب النماذج ويسرع النشر في الإنتاج ويفتح إمكانيات لتطبيقات كانت غير مربحة من قبل. هناك بالفعل شركات أسرعت في دمج FlashAttention-3 في أنظمتها وحققت توفيراً ملحوظاً في الفواتير.
وهذه أخبار جيدة أيضاً للباحثين: يمكنهم التجريب بشكل أسرع وتجربة المزيد من متغيرات الهندسة المعمارية وأحجام النماذج.
*تم الاعتراف بـ Meta كمنظمة متطرفة وحظرها في الاتحاد الروسي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.