Entrenamiento

Olvido Catastrófico

El olvido catastrófico es la tendencia de una red neuronal a perder abruptamente el desempeño en tareas aprendidas previamente cuando se entrena secuencialmente en nuevos datos, porque las actualizaciones de pesos para la nueva tarea sobrescriben representaciones adquiridas anteriormente.

El olvido catastrófico (también llamado interferencia catastrófica) es una limitación fundamental de las redes neuronales entrenadas con descenso de gradiente: cuando un modelo se ajusta sobre nuevos datos o una nueva tarea sin acceso a los datos de entrenamiento originales, las actualizaciones de pesos que minimizan la nueva pérdida inadvertidamente destruyen las configuraciones de parámetros que codifican el conocimiento previo. El resultado es una pérdida casi total de competencia en tareas anteriores incluso después de cantidades modestas de nuevo entrenamiento.

El mecanismo es directo: los pesos de la red neuronal se comparten en todas las tareas que realiza un modelo. Cuando se calculan gradientes para una nueva tarea, ajustan pesos para reducir la nueva pérdida sin tener en cuenta las restricciones impuestas por tareas anteriores. Porque los gradientes para tareas antiguas están ausentes de la actualización actual, el optimizador sobrescribe libremente soluciones previas. La severidad depende del grado de superposición entre representaciones de tareas antiguas y nuevas en el espacio de pesos: tareas estrechamente relacionadas pueden coexistir, mientras que tareas disímiles compiten destructivamente.

El olvido catastrófico plantea un desafío significativo para desplegar sistemas de IA en entornos cambiantes, donde los modelos deben adaptarse a nuevos datos, preferencias de usuario o distribuciones de tareas a lo largo del tiempo sin costoso reentrenamiento completo desde cero. Es un obstáculo principal para lograr aprendizaje de por vida similar al humano en máquinas y una razón clave por la que la mayoría de sistemas de producción aún requieren ciclos de reentrenamiento completo periódico.

Se han desarrollado varias estrategias de mitigación. La consolidación elástica de pesos (EWC), introducida por investigadores de DeepMind en 2017, añade un término de regularización que penaliza cambios en pesos identificados como importantes para tareas anteriores usando la matriz de información de Fisher. Las redes neuronales progresivas asignan capacidad fresca para cada tarea. El replay de experiencia almacena subconjuntos de datos pasados e los intercala con nuevos lotes de entrenamiento. Las arquitecturas aumentadas por recuperación y modulares parcialmente evitan el problema aislando componentes específicos de la tarea. A partir de 2026, ningún método único elimina completamente el olvido catastrófico, y sigue siendo una motivación primaria para la investigación en aprendizaje continuo.

Ejemplo

Un chatbot de servicio al cliente ajustado sobre documentación para una nueva versión de software pierde la capacidad de responder con precisión preguntas sobre la versión anterior, a pesar de haberlas respondido correctamente antes de que comenzara el ajuste.

Términos relacionados

Fine-tuning Aprendizaje Continuo Aprendizaje por Transferencia

← Glosario