Descenso de Gradiente
El descenso de gradiente es un algoritmo de optimización iterativo que entrena modelos de aprendizaje automático ajustando repetidamente los parámetros en la dirección que más reduce una función de pérdida, utilizando derivadas parciales calculadas mediante retropropagación para guiar cada paso de actualización.
El descenso de gradiente es el algoritmo de optimización fundamental utilizado para entrenar modelos de aprendizaje automático. Funciona ajustando iterativamente los parámetros de un modelo en la dirección que más reduce una función de pérdida escalar — una medida del error de predicción calculada sobre ejemplos de entrenamiento. La regla de actualización principal resta una fracción del gradiente de la pérdida con respecto a cada parámetro, donde la fracción está controlada por un hiperparámetro llamado tasa de aprendizaje: un valor demasiado grande causa oscilación o divergencia, mientras que un valor demasiado pequeño hace que el entrenamiento sea prohibitivamente lento.
En la práctica, calcular el gradiente sobre el conjunto de datos de entrenamiento completo en cada paso es computacionalmente inviable para conjuntos de datos grandes, así que el descenso de gradiente estocástico (SGD) y sus variantes de mini-batch aproximan el gradiente completo usando un subconjunto de ejemplos muestreado aleatoriamente en cada paso. El gradiente se calcula mediante retropropagación, que aplica la regla de la cadena del cálculo para propagar señales de error hacia atrás a través de todas las capas de una red neuronal. Las variantes prácticas abordan desafíos comunes de entrenamiento: el momentum acumula un promedio móvil de gradientes pasados para acelerar el progreso y amortiguar oscilaciones; Adam (Adaptive Moment Estimation, introducido por Kingma y Ba en 2014) mantiene tasas de aprendizaje adaptativas por parámetro basadas en estimaciones de los momentos de gradiente primero y segundo; AdamW desacopla la decadencia de pesos de la actualización de gradiente, mejorando la regularización y convirtiéndose en el optimizador dominante para el pre-entrenamiento de modelos de lenguaje grande.
El descenso de gradiente es importante no porque esté garantizado que encuentre un mínimo global — los paisajes de pérdida de redes neuronales profundas son altamente no convexos, conteniendo muchos mínimos locales y puntos de ensilladura — sino porque encuentra de manera confiable configuraciones de parámetros con baja pérdida de entrenamiento y fuerte generalización empírica. Entender sus modos de fallo — gradientes explosivos o que desaparecen, picos de pérdida y sensibilidad a horarios de tasa de aprendizaje — es una competencia central para practicantes que entrenan sistemas modernos a escala.
A partir de 2026, AdamW combinado con un horario de tasa de aprendizaje coseno o lineal con calentamiento sigue siendo el optimizador estándar para el pre-entrenamiento de modelos de lenguaje grande en la mayoría de laboratorios principales. La investigación en alternativas continúa: Sophia aplica estimaciones de curvatura basadas en la diagonal de Hessian para normalizar actualizaciones de gradiente, y Muon aplica actualizaciones de gradiente ortogonal mediante iteraciones de Newton-Schulz, con ambas mostrando resultados prometedores en puntos de referencia de entrenamiento de modelos de lenguaje. El entrenamiento distribuido en miles de GPU requiere sincronización cuidadosa de gradientes, con checkpointing de gradiente, entrenamiento de precisión mixta en BF16 o FP8, y sharding de etapa ZeRO convirtiéndose en infraestructura estándar para el entrenamiento de modelos frontera.