Entrenamiento

Época

Una época es un paso completo de todo el conjunto de datos de entrenamiento a través de un modelo de aprendizaje automático. Los modelos se entrenan típicamente durante múltiples épocas, cada paso refinando los pesos del modelo a través de la retropropagación aplicada a cada muestra de entrenamiento.

En aprendizaje automático, una época es una iteración única completa sobre el conjunto de datos de entrenamiento completo. Durante una época, cada muestra en el conjunto de entrenamiento se presenta al modelo exactamente una vez—típicamente en mini-lotes aleatorizados—y los parámetros del modelo se actualizan a través de retropropagación después de cada lote. El número de épocas es un hiperparámetro primario que controla la duración total del entrenamiento.

Dentro de cada época, el conjunto de datos se comúnmente se aleatoriza y divide en mini-lotes (comúnmente 32–4,096 muestras dependiendo de la tarea y el hardware). El modelo computa un paso hacia adelante para generar predicciones, calcula la pérdida contra la verdad fundamental, y usa retropropagación para calcular gradientes que un optimizador (como Adam o SGD) aplica para actualizar los pesos. Después de cada época, los profesionales típicamente evalúan el modelo en un conjunto de validación reservado para monitorear el rendimiento de generalización.

El número de épocas afecta directamente el balance sesgo-varianza: muy pocas épocas dejan el modelo poco ajustado (pérdida persistentemente alta en datos de entrenamiento y validación); demasiadas pueden causar sobreajuste (la pérdida de validación aumenta mientras la pérdida de entrenamiento continúa disminuyendo). Técnicas como parada temprana—detener el entrenamiento cuando la pérdida de validación falla en mejorar durante un número fijo de épocas consecutivas—y programación de tasa de aprendizaje (reduciendo la tasa de aprendizaje en límites de épocas) son herramientas estándar para manejar este balance.

Para modelos de lenguaje grandes preentrenados en cientos de miles de millones a billones de tokens, un solo paso sobre el corpus completo puede tomar semanas a meses en miles de GPUs, y muchas ejecuciones de entrenamiento completan menos de una época completa sobre su conjunto de datos. El fine-tuning de modelos más pequeños en conjuntos de datos específicos de tareas típicamente ejecuta para 1–10 épocas. Frameworks como PyTorch Lightning y el Trainer de Hugging Face manejan la contabilidad de épocas automáticamente y registran métricas de validación después de cada época como un diagnóstico estándar.

Ejemplo

Un clasificador de sentimientos entrenado en 100,000 reseñas de productos etiquetadas durante 10 épocas procesa los 100,000 ejemplos diez veces en total; la precisión de validación se verifica después de cada época para determinar si el entrenamiento adicional mejora o degrada la generalización.

Términos relacionados

Datos de Entrenamiento Descenso de Gradiente Sobreajuste

← Glosario