Modèles

Modèle texte-vers-image

Un modèle texte-vers-image est un système d'IA générative qui produit des images raster à partir de prompts en langage naturel, synthétisant un contenu visuel qui correspond à la scène, au style ou au sujet décrit.

Un modèle texte-vers-image est un réseau de neurones génératif qui accepte une description en langage naturel en entrée et produit une image correspondante en sortie. Le modèle doit apprendre un mappage entre l'espace des descriptions textuelles et l'espace des distributions de pixels visuels, produisant des images qui sont à la fois visuellement cohérentes et fidèles au prompt.

Deux architectures dominantes ont émergé. Les modèles de diffusion—utilisés dans Stable Diffusion et DALL-E 3—partent d'un bruit gaussien et débruitent itérativement vers une image cohérente guidée par des embeddings textuels produits par un encodeur basé sur CLIP ou T5. Les approches de flow-matching, utilisées dans Flux.1 (Black Forest Labs, 2024), apprennent des transformations continues entre les distributions de bruit et de données qui sont plus rapides à échantillonner du point de vue computationnel. L'entraînement nécessite des ensembles de données massifs image-légende; l'ensemble de données ouvert LAION-5B (5 milliards de paires) était largement utilisé pour les modèles open-source, tandis que les systèmes commerciaux utilisent des corpus filtrés propriétaires. Des techniques comme le classifier-free guidance permettent aux utilisateurs de faire un compromis entre la diversité de sortie et la fidélité au prompt au moment de l'inférence.

Les modèles texte-vers-image ont considérablement changé les workflows créatifs et commerciaux: les designers les utilisent pour le prototypage rapide de concepts, les spécialistes du marketing génèrent des visuels publicitaires sans séances photo, et les cinéastes produisent des storyboards à une fraction des coûts traditionnels. Ils ont simultanément soulevé de sérieux débats sur les droits d'auteur et le consentement, car les ensembles de données d'entraînement contenaient souvent le travail des artistes sans permission explicite, conduisant à des poursuites dans de multiples juridictions d'ici 2024.

Vers la mi-2025, les systèmes de qualité production incluaient Midjourney v6, Adobe Firefly 3 (entraîné sur du contenu sous licence), OpenAI DALL-E 3 (intégré dans ChatGPT), Stable Diffusion 3.5 (Stability AI), Google Imagen 3 et Flux.1 de Black Forest Labs. Les résultats photorréalistes étaient devenus difficiles à distinguer des photographies à première vue, tandis que la fidélité au prompt et le rendu de texte dans les images—historiquement des points faibles—se sont considérablement améliorés avec les modèles de troisième et quatrième générations.

Exemple

Une équipe de conception de produits prompt un modèle texte-vers-image avec « chaussure de course futuriste, matériau iridescent, vue isométrique, éclairage de studio » et génère une douzaine de variations de concepts en moins d'une minute, sélectionnant les plus prometteuses pour affiner dans un outil CAO traditionnel.

Termes liés

← Glossaire