Aumento de Dados
Aumento de dados é a prática de artificialmente expandir um conjunto de dados de treinamento aplicando transformações que preservam rótulos a exemplos existentes—como inversão de imagem, corte ou injeção de ruído—para melhorar generalização do modelo e reduzir overfitting sem coletar novos dados rotulados.
Aumento de dados é um conjunto de técnicas que artificialmente aumentam o tamanho efetivo e a diversidade de um conjunto de dados de treinamento aplicando transformações que preservam rótulos a exemplos existentes. Em vez de coletar novos dados—o que é frequentemente caro, demorado ou impraticável—praticantes geram exemplos de treinamento adicionais modificando sistematicamente ou aleatoriamente exemplos já em mãos.
Para dados de imagem, transformações padrão incluem inversões horizontais aleatórias, rotações, cortes, jitter de cor e Gaussian blur, bem como técnicas mais sofisticadas como Cutout (mascarar patches retangulares aleatórios), MixUp (interpolar linearmente valores de pixel e rótulos de duas imagens) e CutMix (transplantar uma região de uma imagem em outra). Para texto, técnicas comuns incluem back-translation (traduzir para uma língua intermediária e voltar), substituição de sinônimos e paráfrase via modelos de linguagem. Aumento de áudio usa pitch shifting, time stretching e adição de ruído de fundo em variados sinais-para-ruído. Bibliotecas como Albumentations (visão computacional), nlpaug (processamento de linguagem natural) e torchaudio (áudio) implementam essas operações eficientemente e são amplamente usadas tanto em sistemas de pesquisa quanto de produção.
Aumento reduz overfitting prevenindo modelos de memorizar a forma exata de amostras de treinamento, empurrando-os em vez disso para aprender features invariantes. É particularmente valioso em domínios com dados escassos como imagem médica—onde anotar um único scan de CT pode requerer horas de tempo de um radiologista—e em línguas de baixa quantidade de recursos onde corpora de texto são pequenos. Pesquisa consistentemente demonstrou que estratégias de aumento bem-ajustadas podem fechar uma fração substancial do gap de desempenho entre conjuntos de dados rotulados menores e maiores.
Em 2026, aumento é prática padrão em virtualmente todo pipeline competitivo de classificação de imagem e detecção de objetos. Para modelos de linguagem grandes, aumento sintético via self-instruct e geração orientada por persona aumentaram dados de instruções escritas por humanos em escala. Métodos automatizados de busca de aumento—AutoAugment e RandAugment, ambos desenvolvidos no Google—aprendem políticas de transformação ótimas diretamente dos dados em vez de depender de design manual, e são amplamente adotados em sistemas de visão computacional de produção.