Surapprentissage
Le surapprentissage se produit lorsqu'un modèle d'apprentissage automatique apprend trop étroitement les données d'entraînement — y compris leur bruit et leurs idiosyncrasies — résultant en une haute précision sur les exemples d'entraînement mais une mauvaise généralisation aux données non vues.
Le surapprentissage est un mode de défaillance dans lequel un modèle capture des motifs statistiques spécifiques à son ensemble d'entraînement plutôt que la distribution sous-jacente générant les données. Le modèle mémorise effectivement les exemples d'entraînement au lieu d'apprendre des caractéristiques transférables, de sorte que sa perte d'entraînement est très faible tandis que sa perte de validation ou de test est sensiblement plus élevée. Cet écart entre la performance d'entraînement et celle retenue est la signature diagnostique du surapprentissage.
Le surapprentissage est plus probable lorsque la capacité du modèle — le nombre de paramètres ou l'expressivité de la classe de fonction — est élevée par rapport à la quantité de données d'entraînement. Un réseau de neurones profond avec des millions de paramètres entraîné sur un petit ensemble de données peut s'ajuster exactement aux exemples d'entraînement tout en fonctionnant près du hasard sur les nouvelles entrées. Le compromis biais-variance formalise cela : les modèles de haute capacité ont un faible biais (ils peuvent représenter des fonctions complexes) mais une variance élevée (leurs sorties sont sensibles à l'exemple d'entraînement spécifique utilisé).
Les contre-mesures standard incluent les techniques de régularisation telles que la décroissance des poids L2, le dropout et la normalisation par batch ; l'augmentation des données pour élargir artificiellement la diversité d'entraînement ; l'arrêt précoce basé sur la perte de l'ensemble de validation ; et la réduction de la taille du modèle. La validation croisée est l'outil de diagnostic standard pour détecter le surapprentissage avant le déploiement.
Une nuance importante a émergé de l'ère de l'apprentissage profond : les très grands modèles présentent parfois une « double descente », où l'erreur de test augmente initialement avec la complexité du modèle (surapprentissage classique) mais chute ensuite à nouveau à des nombres de paramètres très élevés. Les modèles de foundation avec des centaines de milliards de paramètres entraînés sur des corpus à l'échelle d'Internet se généralisent souvent bien malgré leur capacité à mémoriser presque exactement, remettant en question les intuitions classiques. Comprendre les conditions sous lesquelles l'échelle supprime le surapprentissage reste une question de recherche active en 2026.