كيف قللت TGS و AWS تدريب نموذج الذكاء الاصطناعي الزلزالي من ستة أشهر إلى خمسة أيام
سرعت TGS و AWS تدريب نموذج foundation الزلزالي الخاص بها من ستة أشهر إلى خمسة أيام. نشرت الشركة التدريب الموزع على SageMaker HyperPod وحققت قابلية توسع خطية…
معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
أظهرت TGS بالتعاون مع AWS نتيجة نادرة لمشاريع الذكاء الاصطناعي الكبيرة: تدريب نموذج foundation زلزالي، الذي كان يستغرق حوالي ستة أشهر سابقاً، تم اختزاله إلى خمسة أيام. في الوقت ذاته، قام الفريق بزيادة حجم نافذة السياق، أي حجم البيانات الجيولوجية ثلاثية الأبعاد التي يمكن للنموذج تحليلها في مسار واحد. بالنسبة للشركات التي تعمل في استكشاف الموارد الطبيعية، هذا يعني تكرارات أسرع وصورة أكثر اكتمالاً للهياكل الجوفية.
TGS هي مزود بيانات جيولوجية للقطاع الطاقي. تستخدم الشركة نماذج foundation زلزالية لتحليل مصفوفات ثلاثية الأبعاد معقدة للعثور على الهياكل الجيولوجية المهمة للاستكشاف والإنتاج. يتم بناء العمارة الأساسية للنموذج على Vision Transformer ومخطط تدريب Masked AutoEncoder.
المشكلة الرئيسية هنا ليست فقط حجم النموذج نفسه، بل أيضاً طبيعة البيانات: الأحجام الزلزالية تتكون من مليارات النقاط، يتم تخزينها في تنسيقات متخصصة وتتطلب توصيل مستمر إلى GPU بدون توقف. بالتعاون مع مركز AWS Generative AI Innovation Center، قامت الشركة بنقل التدريب إلى Amazon SageMaker HyperPod وتجميع عنقود يضم 16 عقدة Amazon EC2 P5. كل عقدة تضمنت 8 وحدات معالجة رسومات NVIDIA H200 بذاكرة HBM3e بسعة 141 غيغابايت، و192 معالج افتراضي، و2 تيرابايت من الذاكرة العشوائية، وشبكة EFAv3 بسرعة 3200 غيغابت/ثانية.
بإجمالي 128 وحدة معالجة رسومات. وفقاً لـ AWS، وفرت هذه التكوينة قياساً خطياً تقريباً: بقيت كفاءة التشغيل المتوازي عند التوسع من عقدة واحدة إلى 16 عقدة بحوالي 90–95%. كان هناك تركيز منفصل على مسار البيانات.
بدلاً من المخطط الكلاسيكي مع Amazon FSx for Lustre، اختار الفريق البث المباشر من Amazon S3. السبب بسيط: مع نمو العنقود، يسمح S3 لكل عقدة بإضافة نطاق ترددي خاص بها، بينما يصبح نظام الملفات المشترك اختناقاً أسرع. يتم تخزين مجموعة بيانات التدريب الخاصة بـ TGS بصيغة MDIO التي طورتها الشركة بناءً على Zarr، محسّنة للبيانات العلمية الكبيرة في السحابة.
بعد تكوين التحميل متعدد الخيوط والمحضر المسبق، حققت كل عقدة بشكل مستقر 4–5 غيغابايت/ثانية، والعنقود بأكمله — 64–80 غيغابايت/ثانية. بالإضافة إلى ذلك، قلل هذا من تكاليف البنية التحتية للتخزين بأكثر من 90%. للتدريب الموزع، قارن الفريق عدة طرق: DeepSpeed ZeRO-2 و ZeRO-3 و FSDP2.
أظهرت ZeRO-2 أفضل توازن بين السرعة وتوفير الذاكرة: 1974 عينة في الثانية مقابل 1833 لـ FSDP2 و869 لـ ZeRO-3. هذا مهم لأنه في مثل هذه المهام، لا يعطي توفير الذاكرة الأقصى دائماً أفضل نتيجة إجمالية: إذا أصبح الاتصال بين وحدات معالجة الرسومات مكلفاً جداً، ينخفض الإنتاجية بشكل حاد. في هذا المشروع، كان الرهان ليس على الخيار الأكثر كثافة نظرياً، بل على التكوينة التي تعالج التدريب فعلياً بشكل أسرع في سيناريو الإنتاج.
يتعلق الإنجاز الرئيسي الثاني بتوسيع نافذة السياق. بالنسبة للنماذج الزلزالية، يؤثر هذا بشكل مباشر على جودة التحليل: كلما زاد حجم الصخور التي يراها النموذج في مسار واحد، كان التقاطه أفضل لكل من التفاصيل المحلية، مثل الشقوق الصغيرة، والأنماط الكبيرة — على سبيل المثال، أنظمة الصدوع على مستوى حوض كامل. من خلال context parallelism وتكييف ring attention لعمارة Vision Transformer للبيانات ثلاثية الأبعاد، ازداد حجم الإدخال الأقصى من 640 x 640 x 1024 إلى 1536 x 1536 x 2048 voxel.
زاد طول السياق من 102400 إلى 1.17 مليون رمز، والحجم المحلل — حوالي 4.5 مرات.
المعنى العملي للحالة هو أن TGS يمكنها الآن تحديث النماذج ليس مرة كل ستة أشهر، بل فعلياً بشكل أسبوعي، وربط بيانات جيولوجية جديدة بشكل أسرع، وتوفير سياق تحليل أوسع للعملاء. بالنسبة لـ AWS، هذا مثال توضيحي آخر على أن النماذج foundation المتخصصة في العلوم والصناعة محدودة ليس فقط بعمارة النموذج، بل أيضاً بالتنظيم السليم للبيانات والشبكات والتدريب الموزع. بالنسبة للسوق ككل، الإشارة واضحة: يبدأ الذكاء الاصطناعي الضيق التخصص في الفوز حيث اعتادت الدورات الحسابية الطويلة والبنية التحتية المكلفة جداً أن تهيمن.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.