النماذج

شبكة توليدية متعارضة (GAN)

شبكة توليدية متعارضة (GAN) هي بنية معمارية ثنائية الشبكة حيث ينتج مولد بيانات اصطناعية ويحاول مميز تصنيفها كحقيقية أو مزيفة؛ التدريب المتعارض بين الاثنين يدفع نحو جودة إنتاج متزايدة باستمرار.

شبكة توليدية متعارضة (GAN) هي فئة من معماريات الشبكات العصبية قدمها Ian Goodfellow وزملاؤه سنة 2014. تتكون من شبكتين تُدرَّبان في تعارض: مولد G يخطط متجهات الضوضاء العشوائية إلى عينات بيانات اصطناعية، ومميز D ينتج تقدير احتمال ما إذا كانت عينة معينة حقيقية أم مولدة. لا تتمتع أي من الشبكتين بوصول مباشر إلى معاملات الأخرى؛ كل منهما يتعلم فقط من خلال التغذية الراجعة لخسارة المعارضة.

يتناوب التدريب بين هدفين. يُحدَّث المميز لتعظيم قدرته على التمييز بين عينات التدريب الحقيقية والمولدة. يُحدَّث المولد في الوقت ذاته لتقليل احتمال أن يصنف المميز مخرجاته بشكل صحيح كمزيفة — تعلم الخداع. في تعادل ناش النظري، ينتج G عينات غير قابلة للتمييز عن توزيع التدريب ويُنتج D 0.5 لجميع المدخلات. في الممارسة العملية، استقرار لعبة minimax هذه يتطلب تقنيات مثل خسارة Wasserstein مع عقوبة التدرج (WGAN-GP)، والتطبيع الطيفي، والنمو التدريجي للدقة، كما في سلسلة ProGAN و StyleGAN من NVIDIA.

أثبتت الشبكات التوليدية المتعارضة أن نموذجاً يمكنه تعلم توزيعات بيانات معقدة وعالية الأبعاد دون تقدير احتمالية صريح، مما أتاح تجميع وجوه واقعية للصور، ترجمة الصور إلى صور (Pix2Pix و CycleGAN، 2017)، فائق الدقة، والتوليد المبكر للفيديو. أنتجت StyleGAN2 من NVIDIA (2020) صور وجوه بشرية يصعب تمييزها عن الصور الفوتوغرافية بدقة عالية، مما دفع التطبيقات الإبداعية والقلق بشأن إساءة استخدام الوسائط الاصطناعية.

بحلول منتصف عام 2020، حلت نماذج الانتشار محل الشبكات التوليدية المتعارضة كنموذج سائد لتوليد الصور والفيديو، مما يوفر تدريباً أكثر استقراراً وتنوعاً أكبر في الإنتاج. تبقى الشبكات التوليدية المتعارضة قيد الاستخدام النشط حيث يكون كمون الاستدلال حرجاً — نماذج الانتشار أبطأ بكثير — وللتعزيز البيانات في التصوير الطبي، حيث تكمل العينات الاصطناعية مجموعات بيانات مشروحة نادرة. تستمر معماريات StyleGAN في الظهور في توليد الصور الرمزية والأدوات الفنية.

مثال

يدرب فريق تصوير طبي شبكة توليدية متعارضة على مجموعة صغيرة من صور الرنين المغناطيسي لأورام الدماغ النادرة المشروحة، ثم يستخدم المولد لتوليف آلاف الصور الإضافية، مما يسمح لمصنف لاحق بالوصول إلى دقة مقبولة دون جمع مزيد من بيانات المريض الحقيقية.

مصطلحات مرتبطة

Diffusion Model Deepfake Neural Network

← المسرد