Entraînement

Données synthétiques

Les données synthétiques sont des données générées artificiellement—produites par des algorithmes, des simulations ou des modèles génératifs plutôt que collectées à partir d'événements du monde réel—utilisées pour entraîner, valider ou tester des systèmes d'apprentissage automatique tout en contournant les contraintes de confidentialité, de rareté ou d'étiquetage.

Les données synthétiques sont des informations générées par des processus informatiques—y compris les réseaux de neurones antagonistes génératifs (GANs), les modèles de diffusion, les simulateurs basés sur la physique et les programmes basés sur des règles—plutôt que directement observées ou enregistrées à partir de phénomènes du monde réel. Elles sont conçues pour ressembler statistiquement aux données authentiques tout en ne portant aucun lien direct avec les individus, événements ou processus propriétaires réels.

Les méthodes de génération varient largement selon le domaine. Pour les données tabulaires, des outils tels que Gretel et Mostly AI entraînent des modèles statistiques sur des échantillons réels et tirent de la distribution apprise tout en appliquant des garanties de confidentialité différentielle. Pour les images et les vidéos, les modèles de diffusion et les systèmes propriétaires d'entreprises telles que Synthesis AI rendent des scènes photorréalistes avec un contrôle précis sur l'éclairage, le placement des objets et les étiquettes de vérité au sol annotées. Pour le texte, les grands modèles de langage peuvent être invités à produire des exemples d'entraînement variés selon un schéma spécifié. La qualité est évaluée en comparant la fidélité statistique—à quel point la distribution synthétique correspond à l'original—par rapport à la performance sur les tâches en aval.

Les données synthétiques répondent à plusieurs goulots d'étranglement pratiques : la rareté dans des domaines tels que l'imagerie médicale, les réglementations de confidentialité qui restreignent le partage de dossiers personnels, un déséquilibre de classe grave où les événements rares ont trop peu d'exemples réels, et le coût élevé de l'annotation manuelle. Les développeurs de véhicules autonomes, par exemple, peuvent simuler des millions de scénarios de quasi-accident rares en une fraction du temps et du coût requis pour capturer une vidéo de tableau de bord réelle équivalente.

D'ici 2025–2026, les données synthétiques étaient passées d'un outil expérimental à un composant standard des pipelines d'entraînement à grande échelle. Google, OpenAI et Anthropic ont publiquement discuté de l'utilisation de données synthétiques pour augmenter les ensembles de données de suivi d'instructions et de préférences. Les cadres réglementaires dans l'UE et aux États-Unis ont commencé à distinguer les données synthétiques des données personnelles dans certaines conditions, facilitant une adoption plus large. La concentration du marché est la plus élevée dans l'automobile, la santé et les services financiers, avec des plates-formes de synthèse dédiées générant un chiffre d'affaires annuel de plusieurs milliards de dollars.

Exemple

Une entreprise de voiture autonome entraîne son modèle de détection d'objets sur des millions de scènes de rue photorréalistes synthétiques avec des étiquettes de boîte englobante précises, couvrant des scénarios rares tels que les piétons nocturnes dans le brouillard qui prendraient des années à accumuler à partir de vidéos de tableau de bord réelles.

Termes liés

Données d'entraînement Distillation de connaissance Augmentation de données

Dernières actualités sur le sujet

WACV 2026 à Tucson a montré le virage de la vision par ordinateur vers la multimodalité et les données synthétiques2026-05-02 Habr : comment les données synthétiques aident à entraîner des modèles et pourquoi l'auto-entraînement conduit à l'effondrement2026-04-28 Guide de création d’un pipeline de données synthétiques avec CTGAN et SDV2026-02-14

← Glossaire