Augmentation de données
L'augmentation de données est la pratique d'étendre artificiellement un ensemble de données d'entraînement en appliquant des transformations préservant les étiquettes aux exemples existants—tels que le retournement d'image, le recadrage ou l'injection de bruit—pour améliorer la généralisation du modèle et réduire le surapprentissage sans collecter de nouvelles données étiquetées.
L'augmentation de données est un ensemble de techniques qui augmentent artificiellement la taille effective et la diversité d'un ensemble de données d'entraînement en appliquant des transformations préservant les étiquettes aux exemples existants. Plutôt que de collecter de nouvelles données—ce qui est souvent coûteux, chronophage ou impraticable—les praticiens génèrent des échantillons d'entraînement supplémentaires en modifiant systématiquement ou aléatoirement les exemples déjà en main.
Pour les données d'image, les transformations standard incluent les retournements aléatoires horizontaux, les rotations, les recadrages, la variation de couleur et le flou gaussien, ainsi que des techniques plus sophistiquées telles que Cutout (masquage de patches rectangulaires aléatoires), MixUp (interpolation linéaire des valeurs de pixels et des étiquettes de deux images) et CutMix (transplantation d'une région d'une image dans une autre). Pour le texte, les techniques courantes incluent la rétro-traduction (traduction vers une langue intermédiaire et retour), le remplacement de synonymes et la paraphrase via des modèles de langage. L'augmentation audio utilise le décalage de pitch, l'étirement temporel et l'ajout de bruit ambiant à des rapports signal-bruit variés. Des bibliothèques telles que Albumentations (vision par ordinateur), nlpaug (traitement du langage naturel) et torchaudio (audio) implémentent ces opérations efficacement et sont largement utilisées dans les systèmes de recherche et de production.
L'augmentation réduit le surapprentissage en empêchant les modèles de mémoriser la forme exacte des échantillons d'entraînement, les poussant plutôt à apprendre des caractéristiques invariantes. Elle est particulièrement précieuse dans les domaines pauvres en données tels que l'imagerie médicale—où l'annotation d'une seule analyse CT peut nécessiter des heures de temps d'un radiologue—et dans les langues pauvres en ressources où les corpus de texte sont petits. La recherche a régulièrement montré que des stratégies d'augmentation bien accordées peuvent combler une fraction substantielle de l'écart de performance entre les ensembles de données étiquetées plus petits et plus grands.
En 2026, l'augmentation est une pratique standard dans pratiquement tous les pipelines compétitifs de classification d'images et de détection d'objets. Pour les grands modèles de langage, l'augmentation synthétique via l'auto-instruction et la génération basée sur des personas a complété les données d'instruction écrites par l'homme à grande échelle. Les méthodes de recherche d'augmentation automatisée—AutoAugment et RandAugment, tous deux développés par Google—apprennent les politiques de transformation optimales directement à partir des données plutôt que de s'appuyer sur une conception manuelle, et sont largement adoptées dans les systèmes de vision par ordinateur de production.