Réseau adversaire génératif (GAN)
Un réseau adversaire génératif (GAN) est une architecture à deux réseaux où un générateur produit des données synthétiques et un discriminateur tente de les classer comme réelles ou fausses ; l'entraînement adversaire entre les deux conduit à une qualité de sortie progressivement supérieure.
Un réseau adversaire génératif (GAN) est une classe d'architecture de réseau de neurones introduite par Ian Goodfellow et ses collègues en 2014. Il se compose de deux réseaux entraînés en opposition : un générateur G qui mappe des vecteurs de bruit aléatoire vers des échantillons de données synthétiques, et un discriminateur D qui produit une estimation de probabilité quant à savoir si un échantillon donné est réel ou généré. Aucun réseau n'a accès direct aux paramètres de l'autre ; chacun apprend uniquement par la rétroaction de la perte adversaire.
L'entraînement alterne entre deux objectifs. Le discriminateur est mis à jour pour maximiser sa capacité à distinguer les échantillons d'entraînement réels des échantillons générés. Le générateur est simultanément mis à jour pour minimiser la probabilité que le discriminateur identifie correctement ses sorties comme fausses — apprenant à tromper D. À l'équilibre de Nash théorique, G produit des échantillons indiscernables de la distribution d'entraînement et D produit 0,5 pour toutes les entrées. En pratique, stabiliser ce jeu minimax nécessite des techniques telles que la perte Wasserstein avec pénalité de gradient (WGAN-GP), la normalisation spectrale et la croissance progressive de la résolution, comme dans la série ProGAN et StyleGAN de NVIDIA.
Les GAN ont établi qu'un modèle pouvait apprendre des distributions de données complexes et de haute dimension sans estimation explicite de la vraisemblance, permettant la synthèse de visages photorealistes, la traduction image-à-image (Pix2Pix, CycleGAN, 2017), la super-résolution et la génération vidéo précoce. StyleGAN2 de NVIDIA (2020) a produit des images de visages humains largement indiscernables des photographies à haute résolution, entraînant à la fois des applications créatives et des préoccupations concernant l'utilisation abusive de médias synthétiques.
Au milieu des années 2020, les modèles de diffusion ont remplacé les GAN comme paradigme dominant pour la génération d'images et de vidéos, offrant un entraînement plus stable et une plus grande diversité de sortie. Les GAN restent en usage actif là où la latence d'inférence est critique — les modèles de diffusion sont considérablement plus lents — et pour l'augmentation de données en imagerie médicale, où les échantillons synthétiques complètent les ensembles de données annotées rares. Les architectures basées sur StyleGAN continuent d'apparaître dans la génération d'avatars et les outils artistiques.