Together AI تحقق تسريعًا بنسبة 90% في التدريب على NVIDIA Blackwell
عرضت Together AI نتائجها على NVIDIA Blackwell: تسارع تدريب Llama 70B بنسبة 90% مقارنة بـ H100. 15,264 توكن/ثانية مقابل 8,080، بفضل نوى محسّنة خاصة بها (Together

أعلنت Together AI عن الوصول الفوري إلى مجموعات GPU المسرعة بواسطة NVIDIA Blackwell وقدمت مجموعة التحسين الخاصة بها، المصممة خصيصاً لمعمارية أجهزة الشبكات العصبية الجديدة.
النتائج: تسريع بنسبة 90% مقابل H100
عند اختبار نموذج Llama مع 70 مليار معامل، حققت فريق Together AI 15,264 رمزاً في الثانية على وحدة GPU واحدة. هذا يقارب مضاعفة النتيجة في الجيل السابق NVIDIA HGX H100، التي كانت في الإعداد المحسّن تعالج 8,080 رموز في الثانية.
تم تحقيق النتائج من خلال نسخة محسّنة من TorchTitan مدمجة مع Together Kernel Collection — مجموعة المؤسسة الخاصة بها من النوى المحسّنة. للسياق: يتعلق الأمر بدقة BF16 (Brain Float 16 — توازن بين السرعة والدقة، وهو الآن المعيار لتدريب النماذج الكبيرة). وفقاً للشركة، مع التحسينات الإضافية التي لا تزال قيد التطوير، ستستمر السرعة في النمو.
كيف يعمل: التحسين على مستوى المعمارية
أصبح التسريع ممكناً بسبب التحسين العميق المخصص لمعمارية GPU المحددة. طورت Together AI عدداً من المكونات التي تستفيد بالكامل من قدرات NVIDIA Blackwell:
- نوى FP8 مخصصة تعمل مع Tensor Cores من الجيل الخامس لـ NVIDIA (كتل الحوسبة عالية الأداء)
- نوى الانتباه التي تعمل بسرعة أسرع بـ 1.8 مرة من FlashAttention-3 (المعيار الحالي لآلية الانتباه المحسّنة)
- التكامل مع مكتبة ThunderKittens المفتوحة للاستفادة الكاملة من الذاكرة المخصصة على الشريحة
- خوارزميات التدريب الموزعة المكيفة مع طوبولوجيا شبكة Quantum-2 InfiniBand
لاحظ Tri Dao، العالم الرئيسي في Together AI ومنشئ FlashAttention: "نحن نحسّن كل مستوى من مجموعة ذكاء اصطناعي للاستفادة الكاملة من تطورات معمارية GPU. نحب بشكل خاص Tensor Cores الجديدة وتنسيق microscaling لتسريع الاستدلال. يعيد التركيب بين Together Kernel Collection و NVIDIA Blackwell تعريف معايير التدريب والاستدلال الفعال على نطاق واسع."
برنامج الاختبار والتوسع
كجزء من برنامج إطلاق حصري، تدعو Together AI ثماني شركات ذكاء اصطناعي رائدة للوصول المباشر إلى عُقد HGX B200 المخصصة والفرصة للتعاون مع مهندسي NVIDIA وباحثي Together AI. الهدف هو تسريع الأحمال العملية بشكل مشترك وإيجاد تحسينات إضافية.
بالتوازي، تقوم الشركة بنشر عشرات الآلاف من خوادم HGX B200 والحلول الكاملة GB200 NVL72 مع شبكات NVIDIA Quantum-2 InfiniBand. يتضمن هذا مجموعة 36,000+ GPU المعلنة مسبقاً لتدريب نماذج وعوامل الجيل التالي.
ما يعنيه هذا
بالنسبة لشركات الذكاء الاصطناعي، النتيجة عملية: سيصبح تدريب النماذج الكبيرة أرخص وأسرع. مع زيادة السرعة بنسبة 90%، تُدرب النماذج التي كانت تتطلب أسابيع سابقاً الآن في أيام. يقلل هذا بشكل كبير من نفقات رأس المال للحوسبة ويسرع دورة التجريب مع المعماريات الجديدة. بالنسبة للسوق بشكل عام، هذا إشارة: عصر خدمات GPU العامة تنتهي. شركات الذكاء الاصطناعي التي تكتب نوى محسّنة خاصة بها لمعماريات محددة (مثل Together AI مع ThunderKittens) تكتسب ميزة تنافسية في السرعة والتكلفة. وهذا يؤثر بشكل مباشر على سعر التدريب وفي النهاية على سعر خدمات الذكاء الاصطناعي للمستخدمين النهائيين.