Entrenamiento

Aprendizaje por Transferencia

El aprendizaje por transferencia es una técnica en la que un modelo pre-entrenado en un dataset grande o una tarea se adapta a una tarea diferente pero relacionada, reduciendo sustancialmente la necesidad de datos etiquetados y cómputo de entrenamiento.

El aprendizaje por transferencia se refiere a la práctica de inicializar los pesos de un modelo desde un checkpoint obtenido entrenando en un dominio o tarea fuente, y luego continuar entrenando en una tarea objetivo que generalmente es de escala más pequeña. La suposición central es que las características y representaciones aprendidas para el problema fuente llevan sesgos inductivos útiles para el problema objetivo, incluso cuando las dos tareas difieren sustancialmente en dominio u objetivo.

El proceso típicamente involucra dos etapas. Primero, un modelo se pre-entrena en un dataset grande de propósito general —miles de millones de páginas web para modelos de lenguaje, o decenas de millones de imágenes etiquetadas para modelos de visión. Segundo, el modelo pre-entrenado se somete a fine-tuning en el dataset objetivo. Dependiendo de la similaridad de tareas y datos disponibles, los practicantes pueden hacer fine-tuning de todas las capas, congelar capas tempranas y entrenar solo las posteriores, o adjuntar una pequeña cabeza específica de la tarea sobre representaciones congeladas. Las CNNs pre-entrenadas en ImageNet se convirtieron en el punto de partida canónico para visión por computadora a lo largo de los años 2010; en PNL, BERT (2018) estableció el mismo patrón para la comprensión del lenguaje.

El aprendizaje por transferencia reduce dramáticamente el costo de desplegar IA en dominios con datos etiquetados limitados. Un equipo biomédico que carece de millones de notas clínicas anotadas puede hacer fine-tuning de un modelo de lenguaje pre-entrenado como BioBERT o Med-PaLM en algunos miles de ejemplos y lograr desempeño que de otro modo requeriría vastamente más datos y cómputo. El enfoque también reduce la huella de energía del desarrollo de IA amortizando el costo de grandes ejecuciones de pre-entrenamiento en muchas aplicaciones posteriores.

A partir de 2026, el aprendizaje por transferencia es el paradigma predeterminado para prácticamente toda la PNL aplicada, visión por computadora e IA multimodal. El flujo de trabajo dominante comienza desde un checkpoint de modelo fundacional lanzado públicamente o propietario y lo adapta a través de fine-tuning completo, ajuste de prompts, o métodos eficientes en parámetros como LoRA. El entrenamiento desde inicialización aleatoria en una tarea específica es ahora raro fuera de la investigación en arquitecturas completamente nuevas u objetivos fundamentales.

Ejemplo

Una startup legal-tech descarga un checkpoint pre-entrenado de Llama 3 y lo fine-tunea en 10.000 cláusulas de contrato anotadas; dentro de horas de entrenamiento en dos GPUs, el modelo resultante identifica términos de responsabilidad no estándar con precisión que requeriría conjuntos de datos etiquetados mucho más grandes si se entrenara desde cero.

Términos relacionados

Fine-tuning Pre-training Foundation Model

← Glosario