التدريب

توسيع البيانات (Data Augmentation)

توسيع البيانات هو ممارسة توسيع مجموعة البيانات المستخدمة في التدريب بشكل صناعي من خلال تطبيق تحويلات تحافظ على التسميات على الأمثلة الموجودة - مثل قلب الصور أو القص أو حقن الضوضاء - لتحسين تعميم النموذج وتقليل الإفراط في التخصص دون جمع بيانات جديدة موسومة.

توسيع البيانات هي مجموعة من التقنيات التي تزيد بشكل صناعي من الحجم الفعلي والتنوع لمجموعة بيانات التدريب من خلال تطبيق تحويلات حافظة على التسميات بشكل منهجي أو عشوائي على الأمثلة الموجودة بالفعل. بدلاً من جمع بيانات جديدة - وهو غالباً ما يكون مكلفاً أو استهلاكاً للوقت أو غير عملي - يقوم الممارسون بتوليد عينات تدريب إضافية من خلال تعديل الأمثلة الموجودة بشكل منهجي أو عشوائي.

بالنسبة لبيانات الصور، تشمل التحويلات المعيارية القلب الأفقي العشوائي والدورانات والقص وتغيير درجات الألوان والضباب الغوسي، بالإضافة إلى تقنيات أكثر تطوراً مثل Cutout (إخفاء بقع مستطيلة عشوائية) و MixUp (الاستيفاء الخطي لقيم البكسل والتسميات من صورتين) و CutMix (زراعة منطقة من صورة واحدة إلى أخرى). بالنسبة للنصوص، تشمل التقنيات الشائعة الترجمة العكسية (back-translation) (الترجمة إلى لغة وسيطة والعودة)، واستبدال المترادفات، وإعادة صياغة عبر نماذج اللغة. يستخدم توسيع الصوت تحويل الملعب (pitch shifting) وتمديد الوقت (time stretching) وإضافة ضوضاء الخلفية بنسب إشارة إلى ضوضاء متفاوتة. تطبيقات مثل Albumentations (رؤية الحاسوب) و nlpaug (معالجة اللغات الطبيعية) و torchaudio (الصوت) تطبق هذه العمليات بكفاءة وتستخدم على نطاق واسع في أنظمة البحث والإنتاج.

يقلل التوسيع من الإفراط في التخصص بمنع النماذج من حفظ الشكل الدقيق لعينات التدريب، مما يدفعها بدلاً من ذلك إلى تعلم ميزات ثابتة. وهو مفيد بشكل خاص في المجالات التي تفتقر إلى البيانات مثل التصوير الطبي - حيث يمكن أن يستغرق وسم ماسح ضوئي واحد لـ CT ساعات من وقت أخصائي الأشعة - وفي اللغات منخفضة الموارد حيث تكون مجموعات النصوص صغيرة. أظهرت الأبحاث بشكل متسق أن استراتيجيات التوسيع المعايرة بشكل جيد يمكن أن تسد جزءاً كبيراً من فجوة الأداء بين مجموعات البيانات الموسومة الأصغر والأكبر.

في عام 2026، يعتبر التوسيع ممارسة قياسية في كل خط أنابيب تصنيف الصور والكشف عن الأشياء التنافسي تقريباً. بالنسبة لنماذج اللغات الكبيرة، فقد أكملت التوسيع الاصطناعي عبر self-instruct والجيل الموجه بالشخصية بيانات التعليمات المكتوبة بشكل بشري على نطاق واسع. تعلم طرق البحث عن التوسيع المؤتمتة - AutoAugment و RandAugment، وكلاهما تم تطويره في Google - السياسات المثلى للتحويل مباشرة من البيانات بدلاً من الاعتماد على التصميم اليدوي، ويتم اعتمادها على نطاق واسع في أنظمة رؤية الحاسوب الإنتاجية.

مثال

يطبق فريق التصوير الطبي دورانات عشوائية وتعديلات التباين وتشوهات مرنة على مجموعة بيانات من 5000 صورة صدر موسومة، مما يضاعف بشكل فعلي تنوع التدريب ويقلل من معدل الإيجابيات الكاذبة للنموذج على الفحوصات المحتفظ بها بعدة نقاط مئوية.

مصطلحات مرتبطة

← المسرد