Rede Neural Adversária Generativa (GAN)
Uma Rede Neural Adversária Generativa (GAN) é uma arquitetura de rede dual na qual um gerador produz dados sintéticos e um discriminador tenta classificá-los como reais ou falsos; o treinamento adversário entre os dois impulsiona uma qualidade de saída progressivamente maior.
Uma Rede Neural Adversária Generativa (GAN) é uma classe de arquitetura de rede neural introduzida por Ian Goodfellow e colegas em 2014. Consiste em duas redes treinadas em oposição: um gerador G que mapeia vetores de ruído aleatório para amostras de dados sintéticos, e um discriminador D que produz uma estimativa de probabilidade de uma dada amostra ser real ou gerada. Nenhuma rede tem acesso direto aos parâmetros da outra; cada uma aprende apenas através da realimentação da perda adversária.
O treinamento alterna entre dois objetivos. O discriminador é atualizado para maximizar sua capacidade de distinguir amostras de treinamento reais de geradas. O gerador é atualizado simultaneamente para minimizar a probabilidade de o discriminador identificar corretamente suas saídas como falsas — aprendendo a enganar D. No equilíbrio de Nash teórico, G produz amostras indistinguíveis da distribuição de treinamento e D produz 0,5 para todas as entradas. Na prática, estabilizar este jogo minimax exige técnicas como perda de Wasserstein com penalidade de gradiente (WGAN-GP), normalização espectral e crescimento progressivo de resolução, como em ProGAN e na série StyleGAN da NVIDIA.
GANs estabeleceram que um modelo pode aprender distribuições de dados complexas e de alta dimensionalidade sem estimação de verossimilhança explícita, possibilitando síntese fotorrealista de faces, tradução imagem-para-imagem (Pix2Pix, CycleGAN, 2017), super-resolução e geração de vídeo inicial. O StyleGAN2 (2020) da NVIDIA produziu imagens de faces humanas amplamente indistinguíveis de fotografias em alta resolução, impulsionando tanto aplicações criativas quanto preocupações sobre abuso de mídia sintética.
A meados dos anos 2020, modelos de difusão deslocaram GANs como paradigma dominante para geração de imagens e vídeos, oferecendo treinamento mais estável e maior diversidade de saída. GANs permanecem em uso ativo onde a latência de inferência é crítica — modelos de difusão são substancialmente mais lentos — e para aumento de dados em imagem médica, onde amostras sintéticas complementam conjuntos de dados anotados escassos. Arquiteturas baseadas em StyleGAN continuam aparecendo em geração de avatares e ferramentas artísticas.