Together AI: كيف تغلق تحسينات النوى الفجوة بين النماذج ومعالجات GPU
قام فريق Together AI بتكييف نوى CUDA لمعالجات Blackwell الجديدة من NVIDIA في أسبوع واحد فقط - وهو إنجاز استغرق من NVIDIA سنة كاملة مع فريق كبير من المتخصصين. ا
معالج بواسطة الذكاء الاصطناعي من Together AI Blog؛ بتحرير Hamidun News
أظهر فريق تحسينات النوى في Together AI أن الفجوة بين النظرية والممارسة في مجال الذكاء الاصطناعي ليست حتمية، بل هي تحدٍ مباشر للمهندسين. في أسبوع واحد، قاموا بتكييف النوى منخفضة المستوى لمعالجات Blackwell الجديدة - عمل استغرقت NVIDIA سنة كاملة مع فرق تضم عشرات المتخصصين.
قصة ثورة واحدة
بدأ كل شيء في لحظة غير متوقعة. مايو 2022، عطلة عيد الذاكرين في الولايات المتحدة. بينما كانت وادي السيليكون تستريح، نشر Dan Fu و Tri Dao وزملاؤهما ورقة عمل FlashAttention.
كانت الفكرة الرئيسية جريئة: تحسين آلية الاهتمام في المحولات لم تكن مكتملة، على عكس الاعتقاد السائد. قبل ذلك، كان الخبراء يعتقدون أن معالجات GPU تم استخدامها بالكامل بالفعل. أظهرت تقنيات التخفيف (Sparsity) والطرق منخفضة الترتيب زيادة فعلية تبلغ 10% فقط.
اتبعت FlashAttention طريقاً مختلفاً: لم تبحث عن سحر رياضي، بل فهمت كيف تتحرك الذاكرة فعلاً في معالجات GPU. بتطبيق مبادئ من أنظمة إدارة قواعد البيانات (محلية الذاكرة، هرمية التخزين المؤقت) على آلية الاهتمام، حققوا تسريعاً بمعامل 2-3 مرات.
أرسل Andrej Karpathy، مدير الذكاء الاصطناعي الأول في Tesla في ذلك الوقت، تغريدة الساعة 19:00 من يوم الاثنين. بحلول صباح الثلاثاء، كانت الورقة تنتشر بالفعل عبر جميع قنوات أبحاث الذكاء الاصطناعي.
كما يتذكر Dan Fu: 'بصراحة، لم نتوقع أن يلاحظ أحد هذا'. أصبحت هذه اللحظة الأساس لما هي عليه الآن - واحدة من أكثر فرق أبحاث النوى تأثيراً في مجال الذكاء الاصطناعي.
الفجوة التي لم يراها أحد
إليك ما يغفل عنه معظم الناس في النقاشات حول الذكاء الاصطناعي: وجود أفضل النماذج وأفضل الأجهزة ليس كافياً. الاختناق الفعلي هو الفجوة بينهما: طبقة البرمجيات التي تترجم العمليات الرياضية إلى تعليمات لمعالجات GPU. إنها طبقة النوى.
صُمِّمت العديد من المعمارات الأساسية (ResNet و LSTM و RNN) قبل عصر التوسع الضخم. عندما نمت النماذج إلى مئات المليارات من المعاملات، تطورت معالجات GPU بالتوازي. رقاقات اليوم هي في الأساس مضاعفات مصفوفات متخصصة، مُحسَّنة للمعمارات السائدة القائمة على المحولات.
النواة (Kernel) هي الترجمة بين التجريد والسيليكون. إنها تعليمات لمعالج GPU حول كيفية تحريك البيانات بكفاءة وإجراء العمليات الحسابية. النواة الجيدة تفتح القوة الكاملة للأجهزة. النواة السيئة تتركها غير مستخدمة.
بالنسبة للتطبيقات المحلية للذكاء الاصطناعي (المنتجات المبنية على الذكاء الاصطناعي)، هذه الفجوة حاسمة:
- لا يمكن بناء تطبيق ذكاء اصطناعي سريع الاستجابة على بنية تحتية تعمل بأقل من الأمثل
- تكاليف البنية التحتية تقفز إذا كانت النوى غير محسّنة
- يبقى توسع أعمال الذكاء الاصطناعي مستحيلاً إذا كان الاستدلال يكلف أكثر بمرتين مما يجب
ThunderKittens و Blackwell: أسبوع بدلاً من سنة
مارس 2025. نمت الفرق إلى 15 شخصاً - مزيج من باحثي التعلم الآلي الذين تخصصوا في تحديات الأنظمة وخبراء معالجات GPU المتمرسين الذين انتقلوا إلى الذكاء الاصطناعي. حصلت Together AI على الوصول إلى معالجات NVIDIA Blackwell الجديدة - جيل بمعمارية مختلفة جذرياً.
كان التحدي واضحاً: أنفقت NVIDIA سنة كاملة، تعين عشرات المهندسين، لتطوير نوى محسّنة لـ Blackwell. وضعت Together AI هدفاً لنفسها: أسبوع واحد.
تم حل المشكلة من خلال ما كانوا يطورونه مع باحثي Stanford - مكتبة ThunderKittens. بدلاً من البرمجة اليدوية المحددة لكل جيل جديد من معالجات GPU، أنشأوا إطار عمل عام يتسع. في 5 أيام فقط، أنجزوا عملاً يستغرق عادةً سنة كاملة.
هذا ليس مجرد مسألة سرعة التطوير. إنه دليل على أن منهجيتهم في تطوير النوى تتسع وتعمم حقاً على أجهزة جديدة دون إعادة صياغة من الصفر.
ماذا يعني هذا
تحتاج بيئات الذكاء الاصطناعي السحابية إلى بنية تحتية مُخصصة للذكاء الاصطناعي، محسّنة ابتداءً من طبقة السيليكون وصعوداً. الفجوة بين النماذج ومعالجات GPU لا تُغلق في المنشورات العلمية ولا في المؤتمرات - إنها تُغلق في الكود، في النوى، في الطريقة التي تتحرك بها البيانات فعلياً عبر ذاكرة الرقاقة.
الفريق الذي يفهم هذا ويمكنه القيام بذلك بسرعة سيفوز في هذه الحقبة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.