Entraînement

Oubli Catastrophique

L'oubli catastrophique est la tendance d'un réseau de neurones à perdre abruptement les performances sur les tâches précédemment apprises lorsqu'il est entraîné séquentiellement sur de nouvelles données, car les mises à jour des poids pour la nouvelle tâche écrasent les représentations acquises antérieurement.

L'oubli catastrophique (aussi appelé interférence catastrophique) est une limitation fondamentale des réseaux de neurones entraînés par descente de gradient : lorsqu'un modèle est affiné sur de nouvelles données ou une nouvelle tâche sans accès aux données d'entraînement originales, les mises à jour des poids qui minimisent la nouvelle perte détruisent inadvertamment les configurations de paramètres codant les connaissances antérieures. Le résultat est une perte quasi totale de compétence sur les tâches antérieures même après des quantités modestes d'entraînement nouveau.

Le mécanisme est direct : les poids du réseau de neurones sont partagés à travers toutes les tâches qu'un modèle effectue. Lorsque les gradients sont calculés pour une nouvelle tâche, ils ajustent les poids pour réduire la nouvelle perte sans égard aux contraintes imposées par les tâches antérieures. Comme les gradients pour les tâches anciennes sont absents de la mise à jour actuelle, l'optimiseur réécrit librement les solutions antérieures. La gravité dépend du degré de chevauchement entre les représentations des tâches anciennes et nouvelles dans l'espace des poids : les tâches étroitement liées peuvent coexister, tandis que les tâches dissemblables se font concurrence de manière destructrice.

L'oubli catastrophique pose un défi important pour le déploiement de systèmes d'IA dans des environnements changeants, où les modèles doivent s'adapter à de nouvelles données, préférences des utilisateurs ou distributions de tâches au fil du temps sans coûteux réentraînement complet à partir de zéro. C'est un obstacle principal à la réalisation d'un apprentissage tout au long de la vie semblable à celui de l'homme dans les machines et une raison clé pour laquelle la plupart des systèmes de production nécessitent toujours des cycles de réentraînement complet périodiques.

Plusieurs stratégies d'atténuation ont été développées. La consolidation des poids élastique (EWC), introduite par des chercheurs de DeepMind en 2017, ajoute un terme de régularisation qui pénalise les changements aux poids identifiés comme importants pour les tâches antérieures en utilisant la matrice d'information de Fisher. Les réseaux de neurones progressifs allouent une capacité nouvelle pour chaque tâche. La rejoue d'expérience stocke des sous-ensembles de données passées et les entrelace avec les nouveaux batches d'entraînement. Les architectures augmentées par récupération et modulaires contournent partiellement le problème en isolant les composants spécifiques aux tâches. En 2026, aucune méthode unique n'élimine complètement l'oubli catastrophique, et il reste une motivation principale pour la recherche sur l'apprentissage continu.

Exemple

Un chatbot de service client affiné sur la documentation d'une nouvelle version de logiciel perd la capacité de répondre avec précision aux questions sur la version précédente, malgré qu'il y ait répondu correctement avant que l'affinage ne commence.

Termes liés

Fine-tuning Apprentissage continu Apprentissage par Transfert

← Glossaire