Google Veo 3.1 a appris à transformer des photos de portrait en vidéos verticales
Google a publié une mise à jour de son modèle de génération vidéo Veo 3.1. Principales évolutions : l'outil "Ingredients to Video" reproduit désormais plus…
Traité par IA depuis The Verge ; édité par Hamidun News
La vidéo verticale a définitivement cessé d'être un format de deuxième catégorie. Google a mis à jour son modèle de génération de vidéos Veo 3.1, en ajoutant un support natif pour les vidéos verticales — celles qui dominent TikTok, Instagram Reels et YouTube Shorts. Mais ce n'est pas qu'une simple rotation du cadre de 90 degrés : l'entreprise a sérieusement remanié le mécanisme responsable de la précision avec laquelle la vidéo générée correspond aux images source.
L'outil « Ingredients to Video », présenté pour la première fois l'année dernière, permet aux utilisateurs de télécharger jusqu'à trois images de référence et de créer des clips vidéo basés sur celles-ci. Il peut s'agir de portraits de personnages, de textures de fond, d'éléments d'environnement — essentiellement des « ingrédients » visuels à partir desquels le réseau neuronal assemble le clip final. Le problème avec la version précédente était que le modèle « inventait » souvent des détails, s'écartant des références téléchargées. La mise à jour vise à corriger cela : Google promet des résultats « plus expressifs et créatifs » avec une reproduction « riche » des matériaux source.
Pourquoi la vidéo verticale est devenue l'objectif de la mise à jour — une question dont la réponse est évidente. Les courts clips verticaux génèrent des milliards de vues quotidiennement. Les créateurs de contenu, les spécialistes du marketing et les experts en médias sociaux ont longtemps eu besoin d'outils capables de produire rapidement du contenu visuellement attrayant dans ce format.
Jusqu'à présent, la plupart des générateurs vidéo IA étaient orientés vers le format horizontal « cinématographique » 16:9, et les clips verticaux devaient être recadrés manuellement, perdant en qualité et en composition. Le support natif signifie que le modèle construit initialement la composition du cadre pour l'orientation verticale — avec un positionnement approprié des objets, en tenant compte des proportions faciales et de l'arrière-plan.
La fonction d'upscaling mérite une attention particulière. Les modèles vidéo génératifs sont encore limités en résolution : les coûts de calcul pour créer une vidéo 4K sont astronomiquement élevés. L'upscaling permet de générer un clip à une résolution plus basse, puis de l'agrandir intelligemment en préservant les détails et la netteté. C'est un compromis pragmatique qui rend la vidéo IA adaptée à la publication sur les plateformes qui nécessitent au moins la Full HD.
Le contexte de cette mise à jour ne peut être compris sans considérer la course concurrentielle. OpenAI continue de développer Sora, qui est déjà disponible pour les abonnés à ChatGPT Plus. Runway lance de nouvelles itérations de Gen-3 Alpha.
Les entreprises chinoises — Kling, MiniMax et ByteDance avec son modèle — accélèrent à un rythme alarmant. Dans cet environnement, Google ne peut pas se permettre de prendre du retard, d'autant plus que Veo est intégrée à l'écosystème Gemini et potentiellement accessible à des centaines de millions d'utilisateurs via les services Google. Chaque mise à jour fonctionnelle n'est pas simplement une amélioration technique, mais un coup stratégique dans la lutte pour le marché de la vidéo générative, qui, selon les prévisions des analystes, pourrait dépasser 10 milliards de dollars d'ici 2028.
Il est également important de noter que l'amélioration de la cohérence avec les images de référence aborde l'un des principaux points de friction des utilisateurs de modèles vidéo génératifs. Lorsque vous téléchargez une photo d'une personne spécifique et souhaitez obtenir une vidéo avec exactement ce visage, même les petits écarts — une forme de nez différente, une couleur d'yeux changée, des traits faciaux « mouvants » — détruisent l'illusion. Pour un usage commercial, qu'il s'agisse de publicité ou de contenu de marque, de telles erreurs sont inacceptables. Si Google a véritablement réussi à augmenter la précision de reproduction, cela rapproche Veo du seuil de viabilité commerciale.
Les conséquences pratiques pour les utilisateurs russes restent limitées : l'accès à Veo via les services Google en Russie est entravé, et l'entreprise fournit une API complète aux développeurs tiers de manière sélective. Néanmoins, la tendance est claire — la génération vidéo IA passe rapidement d'un jouet expérimental à un outil de travail. Format vertical, adhérence précise aux références, amélioration de la résolution — tout cela représente des briques dans le fondement du futur, où une part significative du contenu vidéo sur les réseaux sociaux sera créée non pas par une caméra, mais par un réseau neuronal.
Google ferme méthodiquement l'écart entre ce que les modèles génératifs peuvent faire en théorie et ce que le marché réel en demande. La vidéo verticale à partir d'une photo de portrait — ce n'est pas une révolution. C'est la maturité de l'ingénierie, et c'est cela qui déterminera qui finalement occupe la position dominante dans l'industrie vidéo IA.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.