سرّعت Nous Research مرحلة pretraining لـ LLM بمقدار 2.5x من دون تغيير البنية المعمارية
طوّرت Nous Research طريقة Token Superposition Training (TST)، وهي أسلوب pretraining من مرحلتين يسرّع تدريب LLM بمقدار 2.5x عند نفس تكلفة الحوسبة. في المرحلة الأ

طورت Nous Research تقنية Token Superposition Training (TST) — وهي طريقة مبتكرة ثنائية المراحل للتدريب المسبق تقلل من وقت تدريب نماذج اللغة الكبيرة بمعدل 2.5 مرة بنفس التكلفة الحسابية، دون الحاجة إلى أي تغييرات في البنية المعمارية أو المحلل اللغوي أو سلوك الاستدلال.
كيف يعمل Token Superposition Training
تستند الطريقة إلى فكرة بسيطة لكنها فعالة: في المرحلة الأولى من التدريب المسبق، يتم حساب متوسط تضمينات الرموز المجاورة في مجموعات أو أكياس (bags). بدلاً من التنبؤ بكل رمز على حدة، يعمل النموذج مع التمثيلات المجمعة للتسلسلات. يسمح هذا للنموذج بمعالجة المعلومات في كتل كبيرة وتسريع حساب التدرجات بشكل كبير أثناء الانتشار العكسي. في الأساس، تعلم المرحلة الأولى النموذج كيفية إيجاد الأنماط على مستوى أعلى من التجريد.
المرحلة الثانية من التدريب أقصر قليلاً في المدة — ينتقل النموذج إلى التنبؤ القياسي بالرمز التالي، كما تفعل أي نموذج LLM عادة. في هذه المرحلة، يتكيف بسرعة مع المهمة النهائية ويسترجع أي خسائر محتملة في الجودة قد تكون ظهرت في المرحلة الأولى. الانتقال بين المراحل سلس وطبيعي للبنية المعمارية للشبكة العصبية — لا توجد تحفات غريبة أو عدم توافق.
الميزة الرئيسية لـ TST هي أن الطريقة لا تمس البنية المعمارية الداخلية للنموذج. يبقى عدد المعاملات دون تغيير، والأدوات المحيطة والنظام البيئي لا يتغيران — نفس عدد الأوزان، نفس المحلل اللغوي، نفس محسّن Adam أو SGD أو أي محسّن آخر. أثناء الاستدلال، النموذج متوافق تماماً مع أنظمة النشر الموجودة. هذا حاسم للتطبيقات الصناعية، حيث قد يتطلب تغيير البنية المعمارية إعادة كتابة الكثير من الأكواد.
النماذج المستخدمة لاختبار التقنية الجديدة
اختبرت Nous Research TST على نماذج بمقاييس وبنى معمارية مختلفة للتحقق من عمومية النهج:
- 270 مليون معامل (نماذج صغيرة للتجارب السريعة)
- 600 مليون معامل (الحجم القياسي لمشاريع البحث)
- 3 مليارات معامل (البنية المعمارية الكثيفة، dense models)
- 10 مليارات معامل مع بنية Mixture of Experts (MoE)
على جميع هذه المقاييس، أظهرت الطريقة تسريعاً ثابتاً بمعدل 2.5 مرة بنفس التكلفة الحسابية، مقاسة بـ FLOP (العمليات الحسابية بالفاصلة العائمة). النتائج مشجعة: هذا ليس حيلة معملية تعمل فقط على حجم معين من النموذج أو بنية معمارية محددة، بل هو نهج عام يتسع جيداً. هذا يعني أنه يمكن تطبيقه على نطاق واسع.
لماذا هذا حاسم للصناعة
التدريب المسبق لـ LLM هو المرحلة الأكثر استهلاكاً للموارد والأكثر تكلفة اقتصادياً في تطوير النماذج. يتطلب تدريب نموذج واحد كبير آلاف الساعات من عمل مجموعات GPU، وتتراوح تكاليف الكهرباء والمعدات بملايين الدولارات. التسريع بمعدل 2.5 مرة ليس مجرد تحسن بنسبة 5-10٪، بل هو انخفاض حقيقي وقابل للتحقق في إجمالي النفقات يؤثر مباشرة على اقتصاديات التطوير.
بالنسبة للشركات الناشئة والفرق الصغيرة، هذا يعني القدرة على تدريب نماذج عالية الجودة وتنافسية برأس مال أولي أصغر. بالنسبة للمختبرات الكبيرة مثل Meta و Mistral و OpenAI — القدرة على التجريب مع أنماط معمارية وفرط معاملات واستراتيجيات تدريب أكثر بكثير على نفس البنية التحتية. هذا يوسع حدود التجريب ويسرع وتيرة الابتكار ويسمح باختبار الأفكار الجديدة بشكل أسرع.
ما يعنيه هذا
يثبت Token Superposition Training أنه حتى في مجال التدريب المسبق الذي تمت دراسته جيداً، هناك طرق بسيطة لكن قوية لتوفير الحسابات. قد يلهم هذا الباحثين الآخرين للبحث عن تحسينات مماثلة في مراحل مختلفة من تدريب النموذج — من تهيئة الأوزان إلى جداول معدل التعلم التكيفية. بالنسبة للصناعة — إشارة إيجابية بأن الحدود بين البحث الأساسي والتطبيق الصناعي تصبح أكثر غموضاً، والأفكار الجيدة تجد طريقها بسرعة إلى الإنتاج.