Données d'entraînement
Les données d'entraînement sont l'ensemble de données étiqueté ou non étiqueté fourni à un modèle d'apprentissage automatique lors du processus d'optimisation, lui permettant d'ajuster les paramètres internes en minimisant l'erreur de prédiction ; la qualité, l'échelle et la diversité de ces données sont les déterminants principaux de la capacité du modèle.
Les données d'entraînement sont la collection d'exemples—étiquetés ou non étiquetés—utilisés pour optimiser les paramètres d'un modèle d'apprentissage automatique via une exposition répétée et une correction basée sur le gradient. Au cours de l'entraînement, le modèle traite ces exemples, génère des prédictions, calcule une perte mesurant l'erreur de prédiction, et ajuste les poids internes via la rétropropagation de manière à améliorer les prédictions sur les passages successifs dans les données.
La composition et la préparation des données d'entraînement façonnent profondément ce qu'un modèle apprend. Pour les tâches supervisées telles que la classification d'images, chaque exemple apparie une entrée avec une étiquette cible. Pour les modèles de langage, les données d'entraînement consistent en des corpus de texte vastes traités sans étiquettes par exemple ; le modèle apprend en prédisant le token suivant étant donné le contexte antérieur, un objectif auto-supervisé qui s'étend à l'échelle d'internet. Les étapes de curation—la déduplication, la suppression du contenu de faible qualité ou nuisible, et la tokenization—affectent substantiellement le comportement en aval. Les ensembles de données repères incluent ImageNet (environ 1,4 million d'images étiquetées, fondamental pour la vision par ordinateur depuis 2012), Common Crawl (pétaoctets de texte web utilisé dans pratiquement tous les principaux modèles de langage) et The Pile (un corpus de texte curé de 800 GB assemblé par EleutherAI en 2021).
La quantité et la qualité des données d'entraînement sont les déterminants principaux de la capacité du modèle. Les erreurs, les biais et les lacunes se propagent directement dans le comportement du modèle : un modèle de langage entraîné prédominamment sur le texte web anglais sous-performe dans les langues pauvres en ressources, et un système de reconnaissance faciale entraîné sur des images démographiquement biaisées présente des taux d'erreur inégaux selon les groupes. L'expression « les données sont le nouvel or » reflète comment l'avantage concurrentiel en IA s'est déplacé vers l'acquisition, la curation et la concession de licences de données.
L'entraînement des modèles de langage de pointe en 2025–2026 implique des ensembles de données mesurés en trillions de tokens. Les modèles Llama de Meta, la série Gemini de Google et les modèles Claude d'Anthropic sont entraînés sur des corpus de plusieurs trillions de tokens mélangeant les données web, les livres, le code, les articles scientifiques et le matériel synthétique curé. L'inquiétude concernant l'épuisement du texte humain de haute qualité sur l'internet public alimente l'investissement dans la génération de données synthétiques et des pipelines de filtrage de qualité plus agressifs pour soutenir la mise à l'échelle.