Modèle texte-vers-vidéo
Un modèle texte-vers-vidéo est un système d'IA générative qui synthétise des clips vidéo à partir de prompts en langage naturel, produisant des séquences d'images temporellement cohérentes qui correspondent au mouvement, à la scène ou à la narration décrits.
Un modèle texte-vers-vidéo est un réseau de neurones génératif qui produit des séquences vidéo à partir de descriptions textuelles. Contrairement aux modèles texte-vers-image, ces systèmes doivent maintenir la cohérence temporelle—les identités d'objets, l'éclairage et le mouvement doivent rester cohérents sur des dizaines ou des centaines d'images—tout en satisfaisant simultanément la sémantique du prompt.
L'approche dominante étend les modèles de diffusion latente à la dimension temporelle. Un U-Net 3D ou un video transformer apprend à débruiter conjointement des séquences de frames vidéo latentes conditionnées par des embeddings textuels. Sora d'OpenAI (annoncé en février 2024) utilise une méthode spacetime-patch, traitant la vidéo comme des séquences de tokens spatiotemporels compressés traités par une architecture de diffusion transformer (DiT). Veo de Google (2024) applique une approche de diffusion basée sur transformer similaire entraînée sur un large corpus vidéo propriétaire. Runway Gen-3 Alpha et Kling (Kuaishou) utilisent des architectures comparables avec des différences dans les données d'entraînement et les contrôles d'inférence. Générer des clips multi-secondes à haut mouvement reste gourmand en calcul, avec des temps d'inférence allant de secondes à minutes par clip selon la résolution et la longueur.
Les outils texte-vers-vidéo réduisent le coût de la production de contenu pour les vidéos courtes, la publicité et la pré-visualisation dans le développement de films et de jeux. Ils soulèvent également des préoccupations concernant les médias synthétiques: une vidéo convaincante d'une personnalité publique peut désormais être générée par toute personne ayant accès à une API, incitant à des travaux sur des normes de provenance de contenu comme C2PA (Coalition for Content Provenance and Authenticity) et l'attention réglementaire dans de multiples juridictions.
Vers la mi-2025, les systèmes disponibles commercialement incluaient OpenAI Sora, Google Veo 2, Runway Gen-3 Alpha, Kling (Kuaishou), Pika 2.0 et Seedance (ByteDance). Les résultats typiques s'étendaient de 5 à 30 secondes jusqu'à une résolution de 1080p. Le mouvement multi-objets physiquement précis, l'identité cohérente des personnages dans les plans et la narration multi-scènes cohérente restaient des défis de recherche actifs que même les modèles les plus puissants n'abordaient que partiellement.