Entrenamiento

Leyes de Escalado

Las leyes de escalado son relaciones de ley de potencia empíricas que muestran que el rendimiento del modelo de lenguaje mejora de manera predecible conforme aumentan los parámetros del modelo, el volumen de datos de entrenamiento y el presupuesto computacional, permitiendo a investigadores pronosticar ganancias de capacidad antes de comprometerse a ejecutar entrenamientos costosos.

Las leyes de escalado son relaciones empíricas—ampliamente de la forma L ∝ N^(-α) para pérdida L y número de parámetros N—que describen cómo el rendimiento de modelos de aprendizaje automático cambia como función del número de parámetros del modelo, volumen de datos de entrenamiento y presupuesto computacional total. Más extensamente estudiadas para modelos de lenguaje grandes, estas relaciones permiten a investigadores extrapolar calidad de modelo esperada de experimentos pequeños a grandes sin ejecutar la completa ejecución de entrenamiento costosa.

El trabajo fundamental fue publicado por Kaplan et al. en OpenAI en 2020, mostrando que la pérdida de entropía cruzada para modelos de lenguaje autorregresivos declina como una ley de potencia suave con cada uno de los tres ejes de escalado—parámetros, datos y computación—en gran parte independientemente de detalles específicos de arquitectura. En 2022, Hoffmann et al. en DeepMind publicaron el artículo Chinchilla, que refinó la frontera computacionalmente óptima de entrenamiento: los modelos grandes previos habían sido sistemáticamente sub-entrenados en datos relativos a su número de parámetros. El modelo Chinchilla de 70 mil millones de parámetros, entrenado en 1.4 billones de tokens, igualó o superó al GPT-3 (175 mil millones de parámetros) en muchos puntos de referencia, estableciendo que el tamaño del modelo y la cantidad de datos deben escalar en proporción aproximadamente igual para eficiencia computacional.

Las leyes de escalado importan porque convierten intuiciones abstractas en decisiones de ingeniería concretas. Antes de comprometerse a miles de días-GPU a una ejecución de entrenamiento, los equipos ejecutan pequeños experimentos de ablación y usan extrapolaciones de ley de escalado para predecir el rendimiento de modelos más grandes, permitiendo asignación racional de presupuestos computacionales. El resultado de Chinchilla en particular cambió normas de industria: modelos de peso abierto posteriores, incluyendo Llama 2 y la serie Mistral, fueron entrenados significativamente más largamente en más datos que sus predecesores a números de parámetros equivalentes.

Para 2026, las leyes de escalado han sido extendidas más allá de solo texto a modelos multimodales, generación de código y las etapas de post-entrenamiento de aprendizaje por refuerzo desde retroalimentación humana. La investigación activa debate si estas leyes se estabilizarán conforme el texto de alta calidad de internet público se agote, o si continúan siendo válidas cuando el entrenamiento incorpora datos sintéticos y trazas de razonamiento. Compañías incluyendo Google DeepMind, Meta AI y Anthropic tratan el análisis de leyes de escalado como una disciplina central de planificación, publicando recetas computacionalmente óptimas actualizadas junto a lanzamientos de nuevo modelo.

Ejemplo

Antes de comprometerse a entrenar un modelo de 70 mil millones de parámetros, un equipo de investigación ejecuta cinco experimentos de pequeña escala a través de un rango de tamaños, ajusta una curva de ley de potencia a los resultados, y predice que duplicar cálculo reducirá la pérdida de validación aproximadamente 8%, informando la decisión de si la inversión está justificada.

Términos relacionados

Pre-training Compute Test-Time Compute Frontier Model

← Glosario