Modelos

Rede Neural Adversária Generativa (GAN)

Uma Rede Neural Adversária Generativa (GAN) é uma arquitetura de rede dual na qual um gerador produz dados sintéticos e um discriminador tenta classificá-los como reais ou falsos; o treinamento adversário entre os dois impulsiona uma qualidade de saída progressivamente maior.

Uma Rede Neural Adversária Generativa (GAN) é uma classe de arquitetura de rede neural introduzida por Ian Goodfellow e colegas em 2014. Consiste em duas redes treinadas em oposição: um gerador G que mapeia vetores de ruído aleatório para amostras de dados sintéticos, e um discriminador D que produz uma estimativa de probabilidade de uma dada amostra ser real ou gerada. Nenhuma rede tem acesso direto aos parâmetros da outra; cada uma aprende apenas através da realimentação da perda adversária.

O treinamento alterna entre dois objetivos. O discriminador é atualizado para maximizar sua capacidade de distinguir amostras de treinamento reais de geradas. O gerador é atualizado simultaneamente para minimizar a probabilidade de o discriminador identificar corretamente suas saídas como falsas — aprendendo a enganar D. No equilíbrio de Nash teórico, G produz amostras indistinguíveis da distribuição de treinamento e D produz 0,5 para todas as entradas. Na prática, estabilizar este jogo minimax exige técnicas como perda de Wasserstein com penalidade de gradiente (WGAN-GP), normalização espectral e crescimento progressivo de resolução, como em ProGAN e na série StyleGAN da NVIDIA.

GANs estabeleceram que um modelo pode aprender distribuições de dados complexas e de alta dimensionalidade sem estimação de verossimilhança explícita, possibilitando síntese fotorrealista de faces, tradução imagem-para-imagem (Pix2Pix, CycleGAN, 2017), super-resolução e geração de vídeo inicial. O StyleGAN2 (2020) da NVIDIA produziu imagens de faces humanas amplamente indistinguíveis de fotografias em alta resolução, impulsionando tanto aplicações criativas quanto preocupações sobre abuso de mídia sintética.

A meados dos anos 2020, modelos de difusão deslocaram GANs como paradigma dominante para geração de imagens e vídeos, oferecendo treinamento mais estável e maior diversidade de saída. GANs permanecem em uso ativo onde a latência de inferência é crítica — modelos de difusão são substancialmente mais lentos — e para aumento de dados em imagem médica, onde amostras sintéticas complementam conjuntos de dados anotados escassos. Arquiteturas baseadas em StyleGAN continuam aparecendo em geração de avatares e ferramentas artísticas.

Exemplo

Uma equipe de imagem médica treina uma GAN em um pequeno conjunto anotado de ressonâncias magnéticas de tumores cerebrais raros, depois usa o gerador para sintetizar milhares de imagens de treinamento adicionais, permitindo que um classificador downstream atinja precisão aceitável sem coletar mais dados reais de pacientes.

Termos relacionados

Diffusion Model Deepfake Neural Network

← Glossário