Treinamento

Época

Uma época é uma passagem completa de todo o conjunto de dados de treinamento através de um modelo de machine learning. Modelos são tipicamente treinados por múltiplas épocas, cada passagem refinando os pesos do modelo através de backpropagation aplicada a cada amostra de treinamento.

Em machine learning, uma época é uma iteração completa e única sobre todo o conjunto de dados de treinamento. Durante uma época, cada amostra no conjunto de treinamento é apresentada ao modelo exatamente uma vez — tipicamente em mini-batches embaralhados — e os parâmetros do modelo são atualizados via backpropagation após cada batch. A contagem de épocas é um hiperparâmetro primário que controla a duração total do treinamento.

Dentro de cada época, o conjunto de dados é comumente embaralhado e dividido em mini-batches (comumente 32–4.096 amostras dependendo da tarefa e hardware). O modelo calcula um forward pass para gerar previsões, calcula a perda contra a verdade fundamental, e usa backpropagation para computar gradientes que um otimizador (como Adam ou SGD) aplica para atualizar os pesos. Após cada época, practitioners tipicamente avaliam o modelo em um conjunto de validação retido para monitorar desempenho de generalização.

O número de épocas afeta diretamente o tradeoff viés-variância: poucas épocas deixam o modelo subajustado (perda persistentemente alta em dados de treinamento e validação); demasiadas podem causar sobreajuste (a perda de validação sobe enquanto a perda de treinamento continua a cair). Técnicas como early stopping — interromper o treinamento quando a perda de validação deixa de melhorar por um número definido de épocas consecutivas — e learning rate scheduling (reduzindo a taxa de aprendizado em limites de época) são ferramentas padrão para gerenciar este tradeoff.

Para grandes modelos de linguagem pré-treinados em centenas de bilhões a trilhões de tokens, uma passagem única sobre o corpus completo pode levar semanas a meses em milhares de GPUs, e muitas execuções de treinamento completam menos de uma época completa sobre seu conjunto de dados. Fine-tuning de modelos menores em conjuntos de dados específicos de tarefa tipicamente executa por 1–10 épocas. Frameworks como PyTorch Lightning e Hugging Face Trainer lidam com contabilidade de época automaticamente e registram métricas de validação após cada época como um diagnóstico padrão.

Exemplo

Um classificador de sentimento treinado em 100.000 avaliações de produto rotuladas por 10 épocas processa os 100.000 exemplos dez vezes no total; precisão de validação é verificada após cada época para determinar se treinamento adicional melhora ou degrada a generalização.

Termos relacionados

Dados de Treinamento Gradient Descent Sobreajuste

← Glossário