التدريب

قوانين التوسع (Scaling Laws)

قوانين التوسع هي علاقات قوة تجريبية توضح أن أداء نماذج اللغة تتحسن بشكل متوقع مع زيادة معاملات النموذج وحجم بيانات التدريب وميزانية الحساب، مما يتيح للباحثين توقع مكاسب القدرة قبل الالتزام بتشغيلات التدريب المكلفة.

قوانين التوسع هي العلاقات التجريبية - على نطاق واسع بالشكل L ∝ N^(-α) للخسارة L وعدد المعاملات N - التي توضح كيفية تتغير أداء نماذج التعلم الآلي كدالة لعدد معاملات النموذج وحجم بيانات التدريب وإجمالي ميزانية الحساب. الأكثر دراسة على نطاق واسع بالنسبة لنماذج اللغة الكبيرة، تسمح هذه العلاقات للباحثين بالاستقراء من الأداء المتوقعة من التجارب الصغيرة الحجم إلى الكبيرة دون تشغيل تشغيل التدريب الكامل المكلف.

كانت الأعمال الأساسية نُشرت بواسطة Kaplan وآخرون في OpenAI عام 2020، مما يوضح أن خسارة الإنتروبيا المتقاطعة لنماذج اللغة الانحدارية (autoregressive) تتناقص كقانون قوة سلس مع كل من المحاور الثلاثة للتوسع - المعاملات والبيانات والحساب - بشكل مستقل تقريباً عن تفاصيل البنية المحددة. في عام 2022، نشرت Hoffmann وآخرون في DeepMind ورقة Chinchilla، التي حسنت الحدود الحسابية المثلى للتدريب: كانت النماذج الكبيرة السابقة قد تدربت بكمية بيانات أقل نسبياً مقارنة بعدد معاملاتها. نموذج Chinchilla الذي يحتوي على 70 مليار معامل، المدرب على 1.4 تريليون رمز، طابق أو تجاوز GPT-3 (175 مليار معامل) في العديد من المعايير، مما أسس أن حجم النموذج وكمية البيانات يجب أن تتوسع بنسبة متساوية تقريباً لكفاءة الحساب.

تهم قوانين التوسع لأنها تحول الحدس المجرد إلى قرارات هندسية ملموسة. قبل الالتزام بآلاف أيام وحدة معالجة رسومات (GPU) لتشغيل التدريب، تقوم الفرق بتشغيل التجارب الاستئصالية الصغيرة الحجم واستخدام استقراء قوانين التوسع للتنبؤ بأداء النماذج الأكبر، مما يتيح التخصيص العقلاني لميزانيات الحساب. غيرت نتيجة Chinchilla على وجه الخصوص معايير الصناعة: النماذج المفتوحة المتتالية، بما في ذلك Llama 2 وسلسلة Mistral، تم تدريبها لفترة أطول بكثير على بيانات أكثر من سابقاتها بأعداد معاملات معادلة.

بحلول عام 2026، تم توسيع قوانين التوسع إلى ما وراء النص النقي إلى النماذج متعددة الوسائط (multimodal) وتوليد الأكواس (code generation) ومراحل التدريب اللاحق من التعلم المعزز من تعزيز التغذية الراجعة من البشر. تتناول الأبحاث النشطة ما إذا كانت هذه القوانين ستتسطح مع استنزاف النص ذي الجودة العالية المكتوب بشكل بشري من الإنترنت العام، أو ما إذا استمرت في الصمود عند دمج البيانات الاصطناعية وآثار الاستدلال. تتعامل الشركات بما فيها Google DeepMind و Meta AI و Anthropic مع تحليل قوانين التوسع كنشاط تخطيط أساسي، ونشر وصفات محدثة محسنة للحساب جنباً إلى جنب مع إصدارات النموذج الجديدة.

مثال

قبل الالتزام بتدريب نموذج بـ 70 مليار معامل، يقوم فريق البحث بتشغيل خمس تجارب صغيرة الحجم عبر نطاق من الأحجام، ويناسب منحنى قانون القوة للنتائج، ويتنبأ بأن مضاعفة الحساب سيقلل من خسارة التحقق بحوالي 8%، مما يفيد القرار بشأن ما إذا كان الاستثمار مبرراً.

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد