TNW→ المصدر

كفاءة تدريب AI: لماذا السرعة ليست كل شيء

يتطلب تدريب النماذج اللغوية الحديثة التي تضم مئات المليارات من المعلمات آلاف المسرّعات وأشهراً من العمل. تقليدياً، كانت الكفاءة تُقاس عبر throughput — أي عدد…

معالج بواسطة الذكاء الاصطناعي من TNW؛ بتحرير Hamidun News
كفاءة تدريب AI: لماذا السرعة ليست كل شيء
المصدر: TNW. كولاج: Hamidun News.
◐ استمع للمقال

عندما يتعلق الأمر بتدريب نماذج اللغة الكبيرة، يتمحور النقاش حتماً حول شيئين: عدد وحدات معالجة الرسومات المستخدمة ومدى سرعة معالجة النظام للبيانات. أصبحت رموز كل ثانية بمثابة عملة صناعية — كلما زاد العدد، كان أفضل. لكن ماذا لو كانت هذه المقياس، رغم وضوحه، يحكي نصف القصة فقط؟ هذا هو السؤال الذي يطرحه المفهوم المتنامي للـ goodput، والذي يعد بتحويل الطريقة التي نقيّم بها كفاءة تدريب الذكاء الاصطناعي.

التدريب المسبق لنموذج حديث بحجم مئات المليارات من المعاملات والمزيد هو ماراثون هندسي يمتد على مدى أسابيع وأشهر. آلاف المسرّعات تعمل بالتوازي، معالجة كميات ضخمة من بيانات النصوص. تقليدياً، تم قياس نجاح هذه العملية بمقياسين. الأول هو الإنتاجية — النطاق الترددي: كم عدد الرموز التي يمكن للنظام معالجتها لكل وحدة زمنية. الثاني هو تقدم التدريب: مقدار تحسن النموذج فعلياً مع كل تكرار. المشكلة أن هذين المقياسين لا يرتبطان دائماً ببعضهما كما يود المهندسون.

الإنتاجية مقياس بسيط خادع. يوضح مدى سرعة تدفق البيانات عبر خط الأنابيب الحسابي، لكنه لا يقول شيئاً عن جودة هذا العمل. تخيل حزام ناقل في مصنع يختم الأجزاء بسرعة قياسية، لكن نصفها معيب. رسمياً، الإنتاجية عالية، لكن الإنتاج الفعلي شيء آخر تماماً. في سياق تدريب الذكاء الاصطناعي، التشبيه يعمل بشكل مدهش. يمكن للنظام أن يُظهر أرقام إنتاجية مثيرة للإعجاب، لكن جزء كبير من الحسابات يُهدر — في معالجة البيانات مجدداً بعد الأعطال، في أوقات التوقف بسبب المزامنة بين العُقد، في توزيع الحمل دون الأمثل بين المسرّعات. طوال هذا الوقت يستمر عداد الرموز في الدوران، مما يخلق وهماً بالتقدم.

هنا يدخل الـ goodput — مقياس يحاول قياس ليس الإنتاجية الخام، بل العمل المفيد. يأخذ الـ goodput في الاعتبار فقط تلك الحسابات التي تقرب النموذج فعلاً من إتمام التدريب. إذا كان مجموعة من أربعة آلاف وحدة معالجة رسومات تعالج تريليون رمز يومياً، لكن يُفقد عشرون في المائة من هذا العمل بسبب أعطال الأجهزة، وإعادة تشغيل نقاط التحقق، والنفقات العامة للاتصالات بين العُقد، فإن الـ goodput الحقيقي هو فقط ثمانمائة مليار رمز. يبدو الفرق أكاديمياً حتى تترجمه إلى دولارات: بتكلفة استئجار مجموعة وحدات معالجة رسومات كبيرة بملايين الدولارات يومياً، تمثل خسارة بنسبة عشرين في المائة مئات الملايين لكل دورة تدريب.

الانتقال من الإنتاجية إلى الـ goodput كمقياس أساسي يعكس تحولاً أعمق في الصناعة. العصر الذي كان فيه التقدم في الذكاء الاصطناعي يُعرّف حصراً بالحجم — بيانات أكثر، معاملات أكثر، حسابات أكثر — يستسلم تدريجياً لعصر التحسين. تدرك الشركات أن زيادة حجم المجموعات بلا حدود مستحيل اقتصادياً وطاقياً. وفقاً لتقديرات مختلفة، يكلف تدريب نموذج حدودي واحد بالفعل مئات الملايين من الدولارات، والجيل التالي قد يتجاوز علامة مليار دولار. في ظل هذه الظروف، كل نسبة مئوية من الكفاءة الحقيقية ذات أهمية ضخمة. يصبح تحسين الـ goodput ليس تمريناً نظرياً، بل أداة مباشرة لتقليل التكاليف.

العواقب العملية لهذا النهج تؤثر على السلسلة الكاملة — من تصميم مراكز البيانات إلى بنية أطر عمل البرامج للتدريب. على مستوى الأجهزة، يعني هذا اهتماماً متزايداً بتحمل الأعطال: إذا فشل أحد آلاف المسرّعات، يجب على النظام إعادة توزيع الحمل دون فقدان التقدم، بدلاً من العودة إلى آخر نقطة تحقق وفقدان ساعات من العمل. على مستوى البرامج — هذا يعني استراتيجيات نقطة تحقق أذكى، وطرق تحديث تدرج غير متزامنة، وخوارزميات تقسيم متقدمة تقلل النفقات العامة للاتصالات بين العُقد. Google وMeta واللاعبون الرئيسيون الآخرون يستثمرون بالفعل بنشاط في بنية أساسية حيث يكون الـ goodput مقياساً من الدرجة الأولى في تصميم أنظمة التدريب.

هناك جانب آخر غالباً ما يُغفل. يفرض الـ goodput علينا التفكير ليس فقط في مدى سرعة معالجة البيانات، بل أيضاً في البيانات التي تُعالَج. ليست جميع الرموز مفيدة بالتساوي للتدريب. النهج مثل التعلم المناهجي واختيار البيانات الذكية، حيث يتلقى النموذج الأمثلة الأكثر إفادة في الوقت المناسب من التدريب، يزيد الـ goodput بشكل مباشر بمعناه الأوسع — كمقياس للتقدم الحقيقي للنموذج لكل وحدة حسابية تُنفق.

مفهوم الـ goodput هو في الأساس اعتراف بنضج الصناعة. عندما تكون التكنولوجيا صغيرة، يطارد الجميع الأرقام القصوى على الورق. مع نضجها، ينتقل التركيز إلى العوائد الحقيقية. بالنسبة للشركات التي تدرب الجيل التالي من نماذج اللغة، الفرق بين الإنتاجية والـ goodput هو الفرق بين إحراق مئات الملايين من الدولارات والاستثمار الحكيم في التقدم. وأولئك الذين يتعلمون أولاً كيفية تعظيم العمل المفيد من مجموعاتهم سيحصلون على ميزة تنافسية حاسمة في السباق نحو الذكاء الاصطناعي من الجيل التالي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…