Entraînement

Pré-entraînement

Le pré-entraînement est la phase initiale d'entraînement à grande échelle au cours de laquelle un réseau de neurones apprend les représentations générales à partir d'un corpus massif en utilisant des objectifs auto-supervisés, avant tout fine-tuning spécifique à une tâche.

Le pré-entraînement est la phase prédominante en termes de calcul du développement moderne des modèles d'IA à grande échelle, au cours de laquelle un réseau de neurones est entraîné sur un jeu de données massif et largement diversifié — souvent des centaines de milliards à des billions de tokens pour les modèles de langage — pour acquérir des représentations à usage général du langage, des connaissances factuelles et des motifs de raisonnement.

Pour les grands modèles de langage, l'objectif de pré-entraînement dominant est la prédiction autorégrédienne du prochain token : étant donné une séquence de tokens, le modèle apprend à prédire le token suivant en minimisant la perte d'entropie croisée sur des milliards d'exemples. Les modèles encodeurs uniquement comme BERT utilisent plutôt le masquage du langage, prédisant les tokens aléatoirement occultés. Dans les deux cas, aucun label curé manuellement n'est requis car le signal de supervision est dérivé directement des données brutes (apprentissage auto-supervisé). Le pré-entraînement est distribué sur des milliers de GPU ou TPU sur des semaines ou des mois, les exigences de calcul étant mesurées en dizaines de milliers à des millions d'heures de GPU.

Le pré-entraînement est responsable des connaissances générales du monde, de la compétence linguistique et de la capacité de raisonnement qui rendent les grands modèles utiles à travers de nombreuses tâches sans ré-entraînement à partir de zéro. Un modèle pré-entraîné peut ensuite être adapté à des tâches ou des comportements spécifiques par fine-tuning — incluant l'instruction tuning et RLHF — à une fraction du coût d'entraînement initial. Ce paradigme d'apprentissage par transfert est devenu l'approche dominante en traitement du langage naturel, vision par ordinateur et IA multimodale.

Les exécutions de pré-entraînement contemporaines utilisent des jeux de données assemblés à partir de crawls web (Common Crawl), de livres, de référentiels de code, d'articles scientifiques et de sources multilingues, totalisant souvent 10–30 billions de tokens. Le pré-entraînement multimodal — combinant du texte avec des images, de l'audio et de la vidéo — est devenu standard, avec des modèles comme GPT-4o et Gemini 1.5 apprenant des représentations jointes sur plusieurs modalités. Les techniques d'entraînement efficaces comme FlashAttention, le parallélisme tensoriel et de pipeline, et l'arithmétique en précision mixte permettent aux exécutions d'entraînement de se terminer dans des budgets de temps et d'énergie pratiques.

Exemple

Meta a effectué le pré-entraînement du modèle LLaMA 3 à 70 milliards de paramètres sur environ 15 billions de tokens de texte et de code multilingues en utilisant des milliers de GPU Nvidia H100 sur plusieurs mois ; le point de contrôle résultant a ensuite été divulgué publiquement pour que d'autres l'affinent pour des applications spécifiques comme la génération de code ou le résumé de documents.

Termes liés

Données d'entraînement Lois de mise à l'échelle Fine-tuning Apprentissage Auto-Supervisé

← Glossaire