Entrenamiento

Sobreajuste

El sobreajuste ocurre cuando un modelo de aprendizaje automático aprende los datos de entrenamiento demasiado estrechamente — incluyendo su ruido e idiosincrasias — resultando en alta precisión en ejemplos de entrenamiento pero pobre generalización a datos no vistos.

El sobreajuste es un modo de fallo en el que un modelo captura patrones estadísticos específicos de su conjunto de entrenamiento en lugar de la distribución subyacente generadora de datos. El modelo efectivamente memoriza ejemplos de entrenamiento en lugar de aprender características transferibles, por lo que su pérdida de entrenamiento es muy baja mientras que su pérdida de validación o prueba es sustancialmente mayor. Esta brecha entre el desempeño de entrenamiento y el de datos no vistos es la firma diagnóstica del sobreajuste.

El sobreajuste es más probable cuando la capacidad del modelo — el número de parámetros o la expresividad de la clase de función — es alta en relación con la cantidad de datos de entrenamiento. Una red neuronal profunda con millones de parámetros entrenada en un pequeño conjunto de datos puede ajustarse exactamente a ejemplos de entrenamiento mientras tiene un desempeño cercano al azar en nuevas entradas. El equilibrio sesgo-varianza formaliza esto: los modelos de alta capacidad tienen bajo sesgo (pueden representar funciones complejas) pero alta varianza (sus resultados son sensibles a la muestra de entrenamiento específica utilizada).

Las contramedidas estándar incluyen técnicas de regularización como decadencia de pesos L2, dropout y normalización por lotes; aumento de datos para expandir artificialmente la diversidad del entrenamiento; parada temprana basada en la pérdida del conjunto de validación; y reducción del tamaño del modelo. La validación cruzada es la herramienta diagnóstica estándar para detectar sobreajuste antes del despliegue.

Un matiz importante surgió de la era del aprendizaje profundo: los modelos muy grandes a veces exhiben "doble descenso", donde el error de prueba inicialmente aumenta con la complejidad del modelo (sobreajuste clásico) pero luego vuelve a caer en conteos de parámetros muy altos. Los modelos de cimentación con cientos de miles de millones de parámetros entrenados en corpora a escala de internet a menudo generalizan bien a pesar de ser capaces de memorización casi exacta, desafiando intuiciones clásicas. Entender las condiciones bajo las cuales la escala suprime el sobreajuste sigue siendo una pregunta de investigación activa a partir de 2026.

Ejemplo

Un modelo de detección de fraude entrenado en 2,000 ejemplos etiquetados con 500 características de entrada logra una precisión de entrenamiento del 99% pero marca transacciones legítimas a una tasa inaceptable en producción, indicando que aprendió ruido y valores atípicos específicos del lote de entrenamiento en lugar de patrones generales de fraude.

Términos relacionados

Función de Pérdida Aumento de Datos Datos de Entrenamiento Benchmark

← Glosario