Pre-training
Pre-training es la fase inicial de entrenamiento a gran escala en la que una red neuronal aprende representaciones generales de un corpus masivo usando objetivos de aprendizaje autosupervisado, antes de cualquier ajuste fino específico de la tarea.
Pre-training es la fase inicial computacionalmente dominante en el desarrollo de modelos de IA a gran escala moderna, en la que una red neuronal se entrena en un conjunto de datos masivo y ampliamente diverso (a menudo cientos de miles de millones a billones de tokens para modelos de lenguaje) para adquirir representaciones de propósito general del lenguaje, conocimiento factual y patrones de razonamiento.
Para modelos de lenguaje grande, el objetivo de pre-training dominante es la predicción autorregresiva del siguiente token: dada una secuencia de tokens, el modelo aprende a predecir el siguiente token minimizando la pérdida de entropía cruzada en miles de millones de ejemplos. Los modelos solo de codificador como BERT usan modelado de lenguaje enmascarado, prediciendo tokens ocluidos aleatoriamente. En ambos casos, no se requieren etiquetas curadas manualmente porque la señal de supervisión se deriva directamente de los datos sin procesar (aprendizaje autosupervisado). Pre-training se distribuye en miles de GPUs o TPUs durante semanas o meses, con requisitos de cálculo medidos en decenas de miles a millones de horas de GPU.
Pre-training es responsable del amplio conocimiento mundial, competencia lingüística y capacidad de razonamiento que hacen que los modelos grandes sean útiles en muchas tareas sin reentrenamiento desde cero. Un modelo pre-entrenado puede adaptarse posteriormente a tareas específicas o comportamientos mediante fine-tuning (incluyendo instruction tuning y RLHF) a una fracción del costo de entrenamiento original. Este paradigma de aprendizaje por transferencia se ha convertido en el enfoque dominante en procesamiento de lenguaje natural, visión por computadora e IA multimodal.
Las ejecuciones de pre-training contemporáneas utilizan conjuntos de datos ensamblados a partir de rastreos web (Common Crawl), libros, repositorios de código, artículos científicos y fuentes multilingües, totalizando a menudo 10–30 billones de tokens. El pre-training multimodal (combinando texto con imágenes, audio y video) se ha convertido en estándar, con modelos como GPT-4o y Gemini 1.5 aprendiendo representaciones conjuntas en modalidades. Las técnicas de entrenamiento eficientes como FlashAttention, paralelismo de tensor y canalización, y aritmética de precisión mixta permiten que las ejecuciones de entrenamiento se completen dentro de presupuestos de tiempo y energía prácticos.