Entrenamiento

Aprendizaje Autosupervisado

El aprendizaje autosupervisado es un paradigma de entrenamiento en el que un modelo genera su propia señal de supervisión a partir de datos sin etiquetar resolviendo tareas pretexto, eliminando la necesidad de anotaciones humanas costosas.

El aprendizaje autosupervisado (SSL) es un enfoque de aprendizaje automático en el que un modelo se entrena para predecir partes de su propia entrada —o relaciones entre entradas— sin requerir etiquetas proporcionadas por humanos. La señal de supervisión se deriva automáticamente de la estructura de los datos mismos, haciendo posible explotar grandes cantidades de datos crudos y sin anotar.

En la práctica, SSL funciona definiendo una tarea pretexto: un objetivo proxy cuya respuesta puede derivarse de los datos crudos. Las variantes comunes incluyen modelado de lenguaje enmascarado (enmascarar tokens y predecirlos, como en BERT), predicción del siguiente token (como en modelos de la serie GPT), y aprendizaje contrastivo (acercar representaciones de vistas aumentadas de la misma muestra mientras se separan representaciones de muestras diferentes, como en SimCLR y CLIP). Transformadores de visión como DINO y autoencodificadores enmascarados (MAE) aplican estrategias de enmascaramiento análogas a parches de imagen.

El enfoque es central para la IA moderna porque permite entrenar en corpus a escala de internet de texto, imágenes, audio y video —datos que vastamente exceden lo que puede anotarse manualmente. Las representaciones aprendidas a través de SSL se generalizan en muchas tareas posteriores con supervisión adicional mínima, razón por la cual SSL sirve como la base para la mayoría de los grandes modelos fundacionales.

A partir de 2026, el aprendizaje autosupervisado forma la base de prácticamente todos los grandes modelos de lenguaje y modelos de visión-lenguaje. GPT-4 de OpenAI, la serie Llama de Meta, Gemini de Google DeepMind y Claude de Anthropic todos se basan en la predicción del siguiente token como su objetivo SSL principal. Los modelos de audio basados en SSL como wav2vec 2.0 y HuBERT de Meta se han convertido asimismo en estándar para el aprendizaje de representación del habla, pre-entrenando en miles de horas de audio sin etiquetar.

Ejemplo

BERT, lanzado por Google en 2018, fue pre-entrenado en aproximadamente 3.300 millones de palabras usando modelado de lenguaje enmascarado —enmascarando aleatoriamente el 15% de los tokens de entrada y prediciéndolos— y luego fine-tuned en datasets etiquetados para respuesta a preguntas y clasificación de texto, logrando resultados de estado del arte con significativamente menos ejemplos etiquetados de los que requerían modelos anteriores específicos de tareas.

Términos relacionados

Pre-training Aprendizaje No Supervisado Large Language Model (LLM)

← Glosario