Treinamento

Sobreajuste

Sobreajuste ocorre quando um modelo de aprendizado de máquina aprende os dados de treinamento muito proximamente — incluindo seu ruído e idiossincrasias — resultando em alta acurácia em exemplos de treinamento mas pobre generalização para dados não vistos.

Sobreajuste é um modo de falha no qual um modelo captura padrões estatísticos específicos ao seu conjunto de treinamento em vez da distribuição geradora de dados subjacente. O modelo efetivamente memoriza exemplos de treinamento em vez de aprender características transferíveis, então sua perda de treinamento é muito baixa enquanto sua perda de validação ou teste é substancialmente maior. Essa lacuna entre desempenho de treinamento e retirado é a assinatura diagnóstica de sobreajuste.

Sobreajuste é mais provável quando a capacidade do modelo — o número de parâmetros ou a expressividade da classe de função — é alta relativa à quantidade de dados de treinamento. Uma rede neural profunda com milhões de parâmetros treinada em um pequeno conjunto de dados pode ajustar exemplos de treinamento exatamente enquanto têm desempenho próximo ao acaso em novas entradas. O tradeoff viés-variância formaliza isso: modelos de alta capacidade têm baixo viés (podem representar funções complexas) mas alta variância (suas saídas são sensíveis à amostra de treinamento específica usada).

Contramedidas padrão incluem técnicas de regularização como decaimento de peso L2, dropout e normalização de lote; aumento de dados para expandir artificialmente a diversidade de treinamento; parada antecipada baseada em perda de conjunto de validação; e redução do tamanho do modelo. Validação cruzada é a ferramenta diagnóstica padrão para detectar sobreajuste antes da implantação.

Uma nuance importante emergiu da era do aprendizado profundo: modelos muito grandes às vezes exibem "descida dupla", onde o erro de teste inicialmente sobe com a complexidade do modelo (sobreajuste clássico) mas depois cai novamente em contagens de parâmetro muito altas. Modelos de fundação com centenas de bilhões de parâmetros treinados em corpora em escala de internet frequentemente generalizam bem apesar de serem capazes de memorização quase-exata, desafiando intuições clássicas. Entender as condições sob as quais a escala suprime sobreajuste permanece uma questão de pesquisa ativa a partir de 2026.

Exemplo

Um modelo de detecção de fraude treinado em 2.000 exemplos rotulados com 500 características de entrada alcança 99% de acurácia de treinamento mas marca transações legítimas a uma taxa inaceitável em produção, indicando que aprendeu ruído e outliers específicos ao lote de treinamento em vez de padrões gerais de fraude.

Termos relacionados

Função de Perda Aumento de Dados Dados de Treinamento Benchmark

← Glossário