Entrenamiento

Retropropagación

La retropropagación es un algoritmo para calcular el gradiente de la pérdida de una red neuronal con respecto a sus pesos propagando señales de error hacia atrás a través de las capas de la red, lo que permite la optimización basada en gradientes.

La retropropagación (abreviatura de "propagación hacia atrás de errores") es el algoritmo central utilizado para entrenar redes neuronales artificiales. Calcula cuánto contribuyó cada peso al error de salida aplicando la regla de la cadena del cálculo iterativamente desde la capa de salida hacia la capa de entrada, produciendo un vector de gradiente que guía las actualizaciones de pesos.

Durante un pase hacia adelante, los datos de entrada fluyen a través de la red, produciendo una predicción. La función de pérdida entonces mide la discrepancia entre esa predicción y el objetivo. La retropropagación realiza el pase inverso: comenzando en la salida, calcula derivadas parciales de la pérdida con respecto a cada peso, capa por capa. Estos gradientes luego son utilizados por un optimizador — como descenso de gradiente estocástico (SGD) o Adam — para ajustar pesos en la dirección que reduce la pérdida.

El algoritmo fue popularizado para redes neuronales por Rumelhart, Hinton y Williams en su artículo de 1986 en Nature, aunque existen derivaciones independientes anteriores. Sigue siendo el mecanismo de entrenamiento fundamental para prácticamente todos los sistemas de aprendizaje profundo, desde clasificadores pequeños hasta modelos de lenguaje grande con cientos de miles de millones de parámetros.

A partir de 2026, la retropropagación continúa siendo la base del entrenamiento de modelos frontera como GPT-4, Gemini y LLaMA 3. La investigación en alternativas — incluyendo diferenciación de modo directo, gradientes sintéticos y reglas de aprendizaje local inspiradas biológicamente — sigue siendo activa pero no ha desplazado la retropropagación en el entrenamiento práctico a gran escala.

Ejemplo

Al entrenar un clasificador de imágenes, la retropropagación calcula cuánto contribuyeron los pesos de cada filtro convolucional a clasificar erróneamente un gato como un perro, permitiendo que esos pesos se ajusten para reducir el error en la siguiente iteración de entrenamiento.

Términos relacionados

Descenso de Gradiente Neural Network Función de Pérdida

← Glosario