نهاية عصر الذكاء الاصطناعي المكلف: جوجل وإنفيديا تخفضان تكاليف الاستدلال
لطالما أرخت تكاليف تدريب النماذج بظلالها على النفقات الأكبر بكثير لاستدلال الذكاء الاصطناعي اليومي. في مؤتمر Google Cloud Next قدمت جوجل وإنفيديا حلاً…
معالج بواسطة الذكاء الاصطناعي من AI News؛ بتحرير Hamidun News
ظلت صناعة الذكاء الاصطناعي طويلاً رهينة بطموحاتها الخاصة، تخفي المشاكل الاقتصادية الأساسية خلف الإعلانات الصاخبة. ركز انتباه الجمهور تقليدياً على التكاليف الهائلة لتدريب نماذج اللغة الجديدة، إلا أن الحفرة المالية السوداء الحقيقية تكمن في تشغيلها اليومي. تتطلب عملية توليد الردود على ملايين استعلامات المستخدمين اليومية، المعروفة في الصناعة باسم الاستدلال، التشغيل المستمر لمجموعات حوسبة ضخمة وتستهلك قدراً هائلاً من الطاقة. يجعل هذا العامل وحده نشر الذكاء الاصطناعي المتقدم حقاً والمتعدد الأنماط اقتصادياً غير قابل للتطبيق بالنسبة للأغلبية الساحقة من الشركات. في مؤتمر Google Cloud Next، أعلن عمالقة التكنولوجيا Google و NVIDIA عن نهاية هذا العصر من النقص في البنية الأساسية، مقدمين بنية معمارية مشتركة جديدة تعد بتقليل تكاليف الاستدلال بمعامل قدره عشرة.
كان أساس هذا الاختراق التكنولوجي الرائع نماذج حوسبة A5X الجديدة، المقدمة على البنية التحتية bare metal. يؤدي التخلي عن المحاكاة الافتراضية الكلاسيكية إلى القضاء تماماً على فقدان الأداء على طبقات البرامج الوسيطة، مما يوفر كامل قوة الحوسبة مباشرة للخوارزميات. تعتمد هذه النماذج على البنية المعمارية الضخمة NVIDIA Vera Rubin—الخليفة الجيلي الذي طال انتظاره لبنية Blackwell. أصبحت أنظمة الرف NVL72 العنصر الرئيسي للبنية الأساسية الجديدة. بخلاف النهج المعياري التقليدي، حيث يتم دمج معالجات الرسومات الفردية في خوادم قياسية مع اختناقات لا مفر منها في نقل البيانات، يمثل NVL72 نظام حوسبة أحادي الكتلة بحجم خزانة كاملة. داخل رف الخادم هذا، تعمل اثنتان وسبعون معالج رسومات من الجيل التالي كجهاز كمبيوتر عملاق واحد ضخم، موحدة بواسطة روابط الربط البصرية فائقة السرعة.
يحل هذا النهج الجذري لمعمارية أجهزة الخادم المشكلة الرئيسية للاستدلال الحديث—عرض نطاق ذاكرة التخزين المؤقت. الآن يمكن حتى لنماذج اللغة الضخمة جداً التي تحتوي على مئات المليارات من المعاملات أن يتم تحميلها بالكامل في الذاكرة المشتركة للنظام. يحرر هذا مجموعة الخوادم من الحركة المستمرة والبطيئة وكثيفة الاستهلاك للطاقة لكتل البيانات بين العقد الفردية. يتحقق التقليل المعلن من أجل عشرة في تكاليف توليد الرموز ليس فقط من خلال القوة الخام للسيليكون لرقائق معمارية Rubin، بل أيضاً من خلال مستويات غير مسبوقة من التصميم المشترك العميق للأجهزة والبرامج. الجدير بالملاحظة أن Google، التي تمتلك معالجات موتر قوية خاصة بها (TPU)، قامت بهذا التكامل العميق مع NVIDIA، معترفة بضرورة اتباع نهج هجين لتلبية الطلب الهائل من المطورين.
أعاد مهندسو كلا الشركتين كتابة مكدس إدارة الحوسبة الأساسي، مع تحسينه لتلبية الاحتياجات المحددة لتوليد المحتوى على نطاق واسع. تأخذ خوارزميات توزيع الحمل الجديدة على مستوى البرنامج الآن في الاعتبار الطوبولوجيا المادية لرف Vera Rubin، مما يقلل من زمن انتقال الإشارة على مستوى الميكروثانية. بالتوازي مع ذلك، سمح استخدام التبريد السائل المتقدم ومراقبات الطاقة الذكية الجديدة بتقليل جذري في استهلاك الكهرباء لكل ميجابايت من البيانات المولدة. بالنسبة لمراكز البيانات الحديثة، حيث غالباً ما تتجاوز فواتير الكهرباء تكلفة الخوادم نفسها، فهذا عامل حاسم للربحية.
من الصعب المبالغة في تقدير عواقب هذا الإعلان عن البنية الأساسية على سوق التكنولوجيا، حيث إنه ينسف الحاجز الأساسي لاقتصاديات الوحدة للخدمات القائمة على الذكاء الاصطناعي. حتى الآن، كان المطورون المستقلون والشركات الكبرى مجبرين على المساومة باستمرار. اضطروا إلى تقييد وظائف المنتج الخاصة بهم بشكل مصطنع باستخدام نماذج أقل قدرة ولكن أرخص، أو فرض حدود صارمة على الطلبات لتجنب الإفلاس من فواتير السحابة. يعني التقليل بمعامل عشرة في التكاليف أن نماذج العمل التي بدت أمس مثل الخيال الخالص بسبب نفقات الحوسبة الهائلة أصبحت الآن مربحة تماماً.
في المستقبل القريب، سيؤدي الاستدلال الأرخص إلى ثورة غير محسوسة لكن عظيمة في تجربة المستخدم. تحليل الفيديو المعقد في الوقت الفعلي، وتوليد عوالم ثلاثية الأبعاد شخصية في ألعاب الفيديو على الفور، والوكلاء الذكيين للذكاء الاصطناعي الذين يعملون في الخلفية على مدار الساعة، وتحليل كامل تدفق المعلومات الواردة—كل هذا سيكون قادراً على أن يصبح معياراً جماهيرياً، وليس خدمة علاوة مكلفة. بالنسبة لسوق مزودي السحابة، تضع شراكة Google-NVIDIA معياراً عالياً ومخيفاً للكفاءة. تصبح الأساليب التقليدية لبناء مراكز البيانات بسرعة عفا عليها الزمن، مستسلمة لحلول محسنة للغاية على مستوى رفوف كاملة. تمثل هذه الشراكة أهم تحول في نموذج الفكر: أخيراً، تنتقل الصناعة من سباق لإنشاء أكثر الذكاء الاصطناعي ذكاءً إلى سباق براغماتي لتسليمه بأرخص وأسرع وأكثر كفاءة لكل مستخدم على الكوكب.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.