Entrenamiento

Aprendizaje No Supervisado

El aprendizaje no supervisado es un paradigma de aprendizaje automático en el que los modelos encuentran patrones, estructura o representaciones compactas en datos sin ejemplos etiquetados, utilizando técnicas como clustering, reducción de dimensionalidad y modelado generativo.

El aprendizaje no supervisado es un paradigma de aprendizaje automático en el que los modelos se entrenan en datos sin etiquetar con el objetivo de descubrir la estructura inherente, regularidades estadísticas o representaciones útiles sin categorías de salida predefinidas. La ausencia de etiquetas elimina la restricción de coincidir con clases definidas por humanos, permitiendo que el modelo organice la información según la geometría y densidad de los datos mismos.

Las familias de técnicas principales incluyen: algoritmos de clustering (k-means, DBSCAN, clustering jerárquico aglomerativo), que particionan puntos de datos en grupos basados en métricas de similaridad; métodos de reducción de dimensionalidad (análisis de componentes principales, t-SNE, UMAP), que producen representaciones de menor dimensionalidad preservando relaciones geométricas para visualización o modelado descendente; modelos generativos (autoencodificadores variacionales, redes generativas adversariales, modelos de difusión), que aprenden la distribución de datos subyacente y generan nuevas muestras a partir de ella; y autoencodificadores, que aprenden representaciones latentes comprimidas entrenando una red para reconstruir su entrada a través de un cuello de botella. El aprendizaje autosupervisado —donde las señales de supervisión se derivan directamente de la estructura de los datos, como predecir tokens enmascarados o predecir el siguiente token— es un paradigma estrechamente relacionado que ha dominado el pre-entrenamiento a gran escala desde 2018.

El aprendizaje no supervisado es más valioso cuando los datos etiquetados son escasos, costosos o inexistentes. Se utiliza en segmentación de clientes, detección de anomalías en seguridad de redes (donde los ejemplos de ataques etiquetados son raros por definición), clustering de secuencias biológicas y aprendizaje de representaciones. Word2Vec (Mikolov et al., 2013) e incrustaciones de palabras GloVe, entrenadas prediciendo contextos de palabras circundantes, son ejemplos canónicos de representaciones no supervisadas que mejoraron dramáticamente el desempeño en tareas posteriores de PNL. Con la escalada del pre-entrenamiento de modelos fundacionales, el aprendizaje autosupervisado en corpus sin etiquetar se ha convertido en el mecanismo principal para codificar el conocimiento mundial en modelos antes del fine-tuning específico de tareas.

A partir de 2026, el aprendizaje no supervisado y autosupervisado forman la base del pre-entrenamiento de prácticamente todos los modelos fundacionales grandes: GPT-4, Llama 3, Gemini 2.0 y la serie Claude 3 se pre-entrenan en texto masivo sin etiquetar utilizando predicción del siguiente token. En visión, métodos autosupervisados contrastivos como CLIP (OpenAI, 2021) y DINOv2 (Meta, 2023) producen codificadores de imágenes de propósito general poderosos sin imágenes etiquetadas por humanos. Las direcciones de investigación incluyen protocolos de evaluación mejores para representaciones no supervisadas, extender estos métodos a datos multimodales y científicos, y entender qué conocimiento estructural adquieren los modelos en ausencia de objetivos explícitos.

Ejemplo

Spotify aplica clustering no supervisado a las incrustaciones aprendidas de las sesiones de escucha de usuarios para descubrir segmentos de gusto latente sin etiquetas de género o estado de ánimo anotadas manualmente, y luego utiliza estos clusters para iniciar recomendaciones de listas de reproducción para usuarios nuevos.

Términos relacionados

← Glosario