Época
Uma época é uma passagem completa de todo o conjunto de dados de treinamento através de um modelo de machine learning. Modelos são tipicamente treinados por múltiplas épocas, cada passagem refinando os pesos do modelo através de backpropagation aplicada a cada amostra de treinamento.
Em machine learning, uma época é uma iteração completa e única sobre todo o conjunto de dados de treinamento. Durante uma época, cada amostra no conjunto de treinamento é apresentada ao modelo exatamente uma vez — tipicamente em mini-batches embaralhados — e os parâmetros do modelo são atualizados via backpropagation após cada batch. A contagem de épocas é um hiperparâmetro primário que controla a duração total do treinamento.
Dentro de cada época, o conjunto de dados é comumente embaralhado e dividido em mini-batches (comumente 32–4.096 amostras dependendo da tarefa e hardware). O modelo calcula um forward pass para gerar previsões, calcula a perda contra a verdade fundamental, e usa backpropagation para computar gradientes que um otimizador (como Adam ou SGD) aplica para atualizar os pesos. Após cada época, practitioners tipicamente avaliam o modelo em um conjunto de validação retido para monitorar desempenho de generalização.
O número de épocas afeta diretamente o tradeoff viés-variância: poucas épocas deixam o modelo subajustado (perda persistentemente alta em dados de treinamento e validação); demasiadas podem causar sobreajuste (a perda de validação sobe enquanto a perda de treinamento continua a cair). Técnicas como early stopping — interromper o treinamento quando a perda de validação deixa de melhorar por um número definido de épocas consecutivas — e learning rate scheduling (reduzindo a taxa de aprendizado em limites de época) são ferramentas padrão para gerenciar este tradeoff.
Para grandes modelos de linguagem pré-treinados em centenas de bilhões a trilhões de tokens, uma passagem única sobre o corpus completo pode levar semanas a meses em milhares de GPUs, e muitas execuções de treinamento completam menos de uma época completa sobre seu conjunto de dados. Fine-tuning de modelos menores em conjuntos de dados específicos de tarefa tipicamente executa por 1–10 épocas. Frameworks como PyTorch Lightning e Hugging Face Trainer lidam com contabilidade de época automaticamente e registram métricas de validação após cada época como um diagnóstico padrão.