Entraînement

Époque

Une époque est un passage complet de l'ensemble des données d'entraînement à travers un modèle d'apprentissage automatique. Les modèles sont généralement entraînés pour plusieurs époques, chaque passage affine les poids du modèle via la rétropropagation appliquée à chaque échantillon d'entraînement.

Dans l'apprentissage automatique, une époque est une itération unique et complète de l'ensemble des données d'entraînement. Au cours d'une époque, chaque échantillon de l'ensemble d'entraînement est présenté au modèle exactement une fois — généralement dans des mini-lots mélangés — et les paramètres du modèle sont mis à jour via la rétropropagation après chaque lot. Le nombre d'époques est un hyperparamètre primaire contrôlant la durée totale de l'entraînement.

Au sein de chaque époque, l'ensemble de données est généralement mélangé et divisé en mini-lots (généralement 32–4 096 échantillons selon la tâche et le matériel). Le modèle calcule une passe avant pour générer des prédictions, calcule la perte par rapport à la vérité de terrain, et utilise la rétropropagation pour calculer les gradients qu'un optimiseur (tel que Adam ou SGD) applique pour mettre à jour les poids. Après chaque époque, les praticiens évaluent généralement le modèle sur un ensemble de validation retenu pour surveiller les performances de généralisation.

Le nombre d'époques affecte directement le compromis biais-variance : trop peu d'époques laissent le modèle sous-ajusté (perte persistamment élevée sur les données d'entraînement et de validation) ; trop d'époques peuvent causer un surapprentissage (la perte de validation augmente tandis que la perte d'entraînement continue de diminuer). Des techniques telles que l'arrêt précoce — arrêt de l'entraînement lorsque la perte de validation ne s'améliore pas pendant un nombre défini d'époques consécutives — et la planification du taux d'apprentissage (réduction du taux d'apprentissage aux limites des époques) sont des outils standards pour gérer ce compromis.

Pour les grands modèles linguistiques pré-entraînés sur des centaines de milliards à des milliers de milliards de jetons, un seul passage sur l'ensemble du corpus peut prendre des semaines à des mois sur des milliers de GPU, et de nombreuses exécutions d'entraînement complètent moins d'une époque complète sur leur ensemble de données. L'ajustement fin de modèles plus petits sur des ensembles de données spécifiques à la tâche s'exécute généralement pendant 1–10 époques. Des frameworks tels que PyTorch Lightning et Hugging Face Trainer gèrent automatiquement la comptabilité des époques et enregistrent les métriques de validation après chaque époque comme un diagnostic standard.

Exemple

Un classifieur de sentiment entraîné sur 100 000 avis de produits étiquetés pendant 10 époques traite tous les 100 000 exemples dix fois au total ; la précision de validation est vérifiée après chaque époque pour déterminer si l'entraînement supplémentaire améliore ou dégrade la généralisation.

Termes liés

Données d'entraînement Descente de Gradient Surapprentissage

← Glossaire