Lois de mise à l'échelle
Les lois de mise à l'échelle sont des relations de loi de puissance empiriques montrant que la performance du modèle de langage s'améliore de manière prévisible à mesure que les paramètres du modèle, le volume de données d'entraînement et le budget de calcul augmentent, permettant aux chercheurs de prévoir les gains de capacité avant de s'engager dans des cycles d'entraînement coûteux.
Les lois de mise à l'échelle sont des relations empiriques—largement de la forme L ∝ N^(-α) pour la perte L et le nombre de paramètres N—qui décrivent comment la performance des modèles d'apprentissage automatique change en fonction du nombre de paramètres du modèle, du volume de données d'entraînement et du budget de calcul total. Étudiées principalement pour les grands modèles de langage, ces relations permettent aux chercheurs d'extrapoler la qualité attendue du modèle à partir d'expériences à petite échelle vers des expériences plus grandes sans exécuter l'ensemble du cycle d'entraînement coûteux.
Le travail fondateur a été publié par Kaplan et al. chez OpenAI en 2020, montrant que la perte d'entropie croisée pour les modèles de langage autorégressifs diminue comme une loi de puissance lisse avec chacun des trois axes de mise à l'échelle—paramètres, données et calcul—largement indépendamment des détails architecturaux spécifiques. En 2022, Hoffmann et al. chez DeepMind ont publié l'article Chinchilla, qui a affiné la frontière d'entraînement optimale en calcul : les modèles volumineux antérieurs avaient été systématiquement sous-entraînés sur les données par rapport à leur nombre de paramètres. Le modèle Chinchilla de 70 milliards de paramètres, entraîné sur 1,4 trillion de tokens, a égalé ou dépassé GPT-3 (175 milliards de paramètres) sur de nombreux benchmarks, établissant que la taille du modèle et la quantité de données doivent être mises à l'échelle en proportion à peu près égale pour l'efficacité du calcul.
Les lois de mise à l'échelle sont importantes car elles convertissent les intuitions abstraites en décisions d'ingénierie concrètes. Avant de s'engager dans des milliers de jours GPU pour un cycle d'entraînement, les équipes exécutent des ablations à petite échelle et utilisent les extrapolations de lois de mise à l'échelle pour prédire les performances des modèles plus grands, permettant une allocation rationnelle des budgets de calcul. Le résultat Chinchilla en particulier a modifié les normes de l'industrie : les modèles à poids ouvert ultérieurs, y compris Llama 2 et la série Mistral, ont été entraînés significativement plus longtemps sur plus de données que leurs prédécesseurs à nombres de paramètres équivalents.
D'ici 2026, les lois de mise à l'échelle ont été étendues au-delà du texte pur aux modèles multimodaux, à la génération de code et aux étapes post-entraînement de l'apprentissage par renforcement à partir des retours humains. Les recherches actives débattent si ces lois vont plafonner à mesure que le texte de haute qualité de l'internet public s'épuise, ou si elles continuent à se tenir lorsque l'entraînement incorpore des données synthétiques et des traces de raisonnement. Les entreprises y compris Google DeepMind, Meta AI et Anthropic traitent l'analyse des lois de mise à l'échelle comme une discipline de planification fondamentale, publiant les recettes de calcul optimal mises à jour aux côtés des versions de nouveaux modèles.