Entrenamiento

Aumento de Datos

El aumento de datos es la práctica de expandir artificialmente un conjunto de datos de entrenamiento aplicando transformaciones que preservan las etiquetas a ejemplos existentes—como volteo de imagen, recorte o inyección de ruido—para mejorar la generalización del modelo y reducir el sobreajuste sin recopilar nuevos datos etiquetados.

El aumento de datos es un conjunto de técnicas que artificialmente incrementan el tamaño efectivo y diversidad de un conjunto de datos de entrenamiento aplicando transformaciones que preservan las etiquetas a ejemplos existentes. En lugar de recopilar nuevos datos—lo cual es frecuentemente costoso, requiere tiempo o es impracticable—los profesionales generan muestras de entrenamiento adicionales modificando sistemáticamente o aleatoriamente ejemplos ya en mano.

Para datos de imagen, las transformaciones estándar incluyen volteos horizontales aleatorios, rotaciones, recortes, jitter de color y desenfoque gaussiano, así como técnicas más sofisticadas como Cutout (enmascaramiento de parches rectangulares aleatorios), MixUp (interpolación lineal de valores de píxeles y etiquetas de dos imágenes) y CutMix (trasplante de una región de una imagen a otra). Para texto, las técnicas comunes incluyen traducción inversa (traducir a un idioma intermedio y volver), reemplazo de sinónimos y paráfrasis a través de modelos de lenguaje. El aumento de audio usa cambio de pitch, estiramiento de tiempo y la adición de ruido de fondo a varios ratios de señal a ruido. Librerías como Albumentations (visión por computadora), nlpaug (procesamiento de lenguaje natural) y torchaudio (audio) implementan estas operaciones eficientemente y son ampliamente usadas en sistemas de investigación y producción.

El aumento reduce el sobreajuste previniendo que los modelos memoricen la forma exacta de muestras de entrenamiento, impulsándolos en su lugar a aprender características invariantes. Es particularmente valioso en dominios con escasez de datos como imágenes médicas—donde anotar un único escaneo de TC puede requerir horas del tiempo de un radiólogo—y en idiomas con pocos recursos donde los corpus de texto son pequeños. La investigación ha mostrado consistentemente que estrategias de aumento bien ajustadas pueden cerrar una fracción sustancial de la brecha de rendimiento entre conjuntos de datos etiquetados más pequeños y más grandes.

En 2026, el aumento es práctica estándar en prácticamente cada canalización competitiva de clasificación de imágenes y detección de objetos. Para modelos de lenguaje grandes, el aumento sintético a través de self-instruct y generación impulsada por personajes ha suplementado datos de instrucción escrita por humanos a escala. Los métodos de búsqueda automática de aumento—AutoAugment y RandAugment, ambos desarrollados en Google—aprenden políticas de transformación óptimas directamente de datos en lugar de depender de diseño manual, y son ampliamente adoptados en sistemas de visión por computadora de producción.

Ejemplo

Un equipo de imágenes médicas aplica rotaciones aleatorias, ajustes de contraste y deformaciones elásticas a un conjunto de datos de 5,000 radiografías de tórax etiquetadas, efectivamente triplicando la diversidad de entrenamiento y reduciendo la tasa de falsos negativos del modelo en escaneos retenidos por varios puntos porcentuales.

Términos relacionados

Datos de Entrenamiento Datos Sintéticos Sobreajuste

← Glosario