AWS حدّثت حاويتها لتشغيل النماذج اللغوية الكبيرة: ما الذي تغيّر ولماذا هذا مهم
كشفت AWS عن تحديث واسع النطاق لحاوية Large Model Inference (LMI)، المخصصة لنشر النماذج اللغوية الكبيرة في السحابة. وتشمل التحسينات الرئيسية أداء الاستدلال،…
معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
نشر نموذج لغة كبير في الإنتاج ليس لحظة للاسترخاء. بل على العكس تماماً: هنا يبدأ العمل الهندسي الحقيقي، حيث تكون كل ميلي ثانية من التأخير وكل دولار تنفقه على ساعات وحدة المعالجة الرسومية مهماً. من الواضح أن خدمات ويب أمازون تفهم هذا جيداً وتطلق تحديثاً جادياً لحاويتها Large Model Inference، موجهاً لمن تجاوزوا تجارب المختبر.
حاوية LMI هي بيئة تنفيذ متخصصة تقدمها AWS لتشغيل النماذج الكبيرة على نوى SageMaker وخدمات الحوسبة الأخرى للشركة. بشكل أساسي، هي عبارة عن غلاف يتحمل الجزء الأكثر عدم شكر من العمل: تحسين الاستدلال، إدارة ذاكرة وحدة المعالجة الرسومية، موازنة الحمل عبر المسرعات، وتحويل النماذج إلى صيغ مناسبة للتنفيذ الفعال. بدون مثل هذه الأدوات، تضطر الفرق إلى قضاء أسابيع في الضبط اليدوي، واختيار معاملات التكمية، واستراتيجيات التجزئة وتكوينات المعالجة الدفعية. تهدف تحديثات LMI إلى تقصير هذا الطريق.
ما الذي تغير بالضبط؟ تقرر AWS عن ثلاثة اتجاهات رئيسية. أولاً — مكاسب أداء قابلة للقياس على معماريات النموذج الشهيرة. على الرغم من أن الشركة لا تكشف عن معايير محددة في الإعلان، فإن النقاش يتعلق على الأرجح بالتحسينات على مستوى نوى الحوسبة، ومعالجة دفعية مستمرة محسنة واستخدام أكثر كثافة لقدرات الأجهزة من الأجيال الأخيرة من المسرعات — Nvidia H100، بالإضافة إلى رقاقات Trainium و Inferentia الخاصة بـ AWS. بالنسبة للشركات التي تخدم ملايين الطلبات يومياً، حتى تحسن بنسبة خمسة في المائة في التأخير أو الإنتاجية يترجم إلى توفير ملموس.
الاتجاه الثاني — دعم النموذج الموسع. ينقلب منظر النماذج اللغوية الكبيرة المفتوحة بسرعة: Llama و Mistral و Qwen و DeepSeek وعشرات المعماريات الأخرى تظهر أسرع مما يستطيع موفرو السحابة دمجها. بناءً على تصريحات AWS، تقلل حاوية LMI المحدثة الفجوة بين إطلاق نموذج جديد والقدرة على تشغيله في الإنتاج على بنية Amazon. هذا حرج للشركات غير المرتبطة بمورد نموذج واحد والتي تريد اختبار البدائل بسرعة.
الثالث — النشر المبسط. AWS تتجه بوضوح نحو جعل نشر LLM ليس أكثر تعقيداً من تشغيل خدمة ويب عادية. تقليل التعقيد التشغيلي ليس مجرد راحة للمطورين. إنه خطوة استراتيجية موجهة لتوسيع الجمهور: كلما كانت العملية أبسط، زاد عدد الشركات متوسطة الحجم التي ستتمكن من تحمل حلول LLM الخاصة بها بدلاً من الاعتماد على خدمات API مثل OpenAI أو Anthropic. AWS، في الأساس، توفر حلاً وسطياً — تتحكم في النموذج والبيانات لكنك لا تغوص في تعقيد البنية التحتية.
لا يمكن فهم هذا التحديث بدون النظر في الصراع التنافسي بين ثلاثة عمالقة في الحوسبة السحابية. يراهن Microsoft Azure على التكامل العميق مع OpenAI ويقدم Models as a Service من خلال فهرسه. تروج Google Cloud نظام Vertex AI مع دعم Gemini الأصلي ومجموعة متزايدة من النماذج المفتوحة. احتلت AWS تاريخياً موقع مزود "محايد من حيث البنية التحتية" — توفر الشركة قوة حوسبية وأدوات دون فرض نموذج معين. يعزز تحديث حاوية LMI هذه الاستراتيجية بالفعل. في عالم يظهر فيه "أفضل نموذج" جديد كل بضعة أشهر، قد تثبت مرونة البنية التحتية أنها أهم من الشراكات الحصرية.
هناك أيضاً اتجاه أوسع ينسجم مع هذا التحديث. تنقل الصناعة تدريجياً التركيز من تدريب النماذج إلى كفاءة تشغيلها. تكلفة الاستدلال — أي الاستخدام المباشر للنموذج لمعالجة الطلبات — قد تمثل ما يصل إلى 90 في المائة من إجمالي نفقات LLM في الإنتاج. أي تحسن في هذه المرحلة له تأثير مضاعف. لا عجب أن جميع موفري السحابة الكبار، بالإضافة إلى الشركات الناشئة مثل Together AI و Fireworks و Anyscale، يستثمرون بالتحديد في تحسين الاستدلال. AWS، بقاعدتها الواسعة من العملاء، في وضع مفيد: كل تحسن في LMI ينتشر تلقائياً إلى آلاف الشركات.
بالنسبة للفرق الروسية التي تعمل مع AWS — وتوجد مثل هذه الفرق، رغم كل التعقيدات الجيوسياسية — يعني التحديث الفرصة لتقليل تكاليف صيانة النماذج بدون إعادة كتابة الكود. بالنسبة للجميع آخر، إنها إشارة حول الاتجاه الذي تتجه إليه الصناعة: الاستدلال يصبح خدمة سلعية، والفائز سيكون من يجعلها أرخص وأسرع وأبسط. سباق الكفاءة في الاستدلال يكتسب الزخم فحسب، وستحدد نتائجه في النهاية مدى الوصول إلى حلول LLM للشركات بأي حجم.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.