Descente de Gradient
La descente de gradient est un algorithme d'optimisation itératif qui entraîne les modèles d'apprentissage automatique en ajustant répétément les paramètres dans la direction qui réduit le plus une fonction de perte, en utilisant les dérivées partielles calculées via la rétropropagation pour guider chaque étape de mise à jour.
La descente de gradient est l'algorithme d'optimisation fondamental utilisé pour entraîner les modèles d'apprentissage automatique. Elle fonctionne en ajustant de manière itérative les paramètres d'un modèle dans la direction qui réduit le plus une fonction de perte scalaire — une mesure de l'erreur de prédiction calculée sur les exemples d'entraînement. La règle de mise à jour principale soustrait une fraction du gradient de la perte par rapport à chaque paramètre, où la fraction est contrôlée par un hyperparamètre appelé taux d'apprentissage : une valeur trop grande provoque une oscillation ou une divergence, tandis qu'une valeur trop petite rend l'entraînement prohibitivement lent.
En pratique, calculer le gradient sur l'ensemble complet des données d'entraînement à chaque étape est informatiquement infaisable pour les grands ensembles de données, donc la descente de gradient stochastique (SGD) et les variantes mini-batch approximent le gradient complet en utilisant un sous-ensemble d'exemples échantillonnés aléatoirement à chaque étape. Le gradient est calculé via la rétropropagation, qui applique la règle de la chaîne du calcul pour propager les signaux d'erreur en arrière à travers toutes les couches d'un réseau de neurones. Les variantes pratiques traitent les défis d'entraînement courants : le moment accumule une moyenne mobile des gradients antérieurs pour accélérer les progrès et amortir les oscillations ; Adam (Adaptive Moment Estimation, introduit par Kingma et Ba en 2014) maintient des taux d'apprentissage adaptatifs par paramètre basés sur les estimations des premier et deuxième moments du gradient ; AdamW découple la décroissance des poids de la mise à jour du gradient, améliorant la régularisation et devenant l'optimiseur dominant pour la pré-formation des grands modèles de langage.
La descente de gradient est importante non pas parce qu'elle garantit de trouver un minimum global — les paysages de perte des réseaux de neurones profonds sont hautement non-convexes, contenant de nombreux minima locaux et points de selle — mais parce qu'elle trouve de manière fiable des configurations de paramètres avec une perte d'entraînement faible et une généralisation empirique forte. Comprendre ses modes de défaillance — gradients explosifs ou qui s'évanouissent, pics de perte et sensibilité aux calendriers de taux d'apprentissage — est une compétence fondamentale pour les praticiens entraînant des systèmes modernes à grande échelle.
En 2026, AdamW combiné avec un calendrier de taux d'apprentissage cosinus ou linéaire avec préchauffage reste l'optimiseur standard pour la pré-formation des grands modèles de langage dans la plupart des laboratoires majeurs. La recherche d'alternatives se poursuit : Sophia applique des estimations de courbure basées sur la diagonale du Hessien pour normaliser les mises à jour du gradient, et Muon applique des mises à jour de gradient orthogonales via les itérations de Newton-Schulz, les deux montrant des résultats prometteurs sur les bancs de test d'entraînement des modèles de langage. L'entraînement distribué sur des milliers de GPU nécessite une synchronisation soigneuse des gradients, avec le checkpointing de gradient, l'entraînement en précision mixte en BF16 ou FP8, et le sharding par étape ZeRO devenant l'infrastructure standard pour l'entraînement des modèles frontière.