Vidu Q2 : maintenant l'IA copie non seulement l'image, mais aussi le jeu d'acteur
Vidu Q2 : Désormais l'IA copie non seulement l'image, mais aussi la performance de jeu Tandis que la communauté mondiale attend avec impatience au moins une…
Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Vidu Q2 : Désormais l'IA copie non seulement l'image, mais aussi la performance de jeu
Tandis que la communauté mondiale attend avec impatience au moins une bêta fermée de Sora d'OpenAI, des développeurs chinois de Shengshu Technology ont décidé que l'époque des jolis vidéos de démonstration était révolue. Leur projet Vidu s'est déjà établi comme un concurrent sérieux sur le marché de la vidéo générative, mais la mise à jour fraîche Q2 avec la fonctionnalité Reference Pro élève le jeu à un niveau complètement différent.
Le principal problème de la vidéo de réseau de neurones aujourd'hui est le manque de contrôle. Vous pouvez obtenir un cadre incroyable, mais forcer le réseau de neurones à le reproduire avec le même personnage ou dans le même style est pratiquement impossible. Vidu Q2 tente de corriger cela en offrant aux utilisateurs un outil que l'industrie appelle la cohérence.
L'essence de la fonctionnalité Reference Pro est que vous n'écrivez plus simplement une requête textuelle en espérant avoir de la chance. Vous donnez au modèle une référence. Il peut s'agir d'une image de personnage, d'un effet visuel spécifique ou même d'une vidéo avec des mouvements qui doivent être copiés. Le réseau de neurones analyse la référence et « absorbe » ses caractéristiques. Dans les cercles technologiques chinois, on appelle cela l'effet d'immersion totale dans le contexte.
Cela permet de conserver le visage d'un personnage inchangé tout au long de plusieurs scènes, ce qui jusqu'à récemment était le principal cauchemar pour quiconque tentait d'assembler un court-métrage complet ou une publicité à partir de morceaux de réseau de neurones. Techniquement, Shengshu Technology a réussi à réaliser une séparation des attributs de style et de contenu dans l'espace latent du modèle. Cela signifie que vous pouvez prendre une chorégraphie complexe d'une vidéo et la transférer à un personnage complètement différent dans un environnement différent, tout en préservant la physique et la dynamique de l'original. Ce n'est pas simplement une superposition de masque, mais un réassemblage complet de la scène en tenant compte des nouvelles variables.
Cette approche fait de Vidu Q2 non seulement un jouet pour la génération de mèmes, mais un véritable outil de travail pour les agences créatives et les petits studios qui n'ont pas le budget pour des graphiques complets mais qui ont une demande de qualité.
Pourquoi est-ce important en ce moment ? Nous assistons à une transformation du marché du contenu IA. La première étape de l'« effet wow », où nous étions émerveillés par la simple possibilité de donner vie à une image, est officiellement terminée. L'étape du pragmatisme est arrivée. Les professionnels n'ont pas besoin de chefs-d'œuvre aléatoires ; ils ont besoin d'outils qui répondent à la spécification technique. Les entreprises chinoises comme Shengshu Technology et les créateurs de Kling comprennent cela mieux que d'autres. Tandis que les corporations occidentales sont enlisées dans des questions juridiques et des filtres éthiques, les développeurs orientaux créent des fonctionnalités appliquées qui transforment le pipeline de production de contenu ici et maintenant.
C'est aussi intéressant de voir comment Vidu gère les détails. La fonctionnalité Reference Pro permet de copier même des schémas d'éclairage complexes et des textures. Si votre référence avait un éclairage doux de coucher de soleil et un certain grain de film, le modèle transférera cette atmosphère au résultat final avec une précision remarquable. Cela met en péril les méthodes traditionnelles de postproduction vidéo, car de nombreuses tâches peuvent désormais être résolues à l'étape de génération. Nous voyons la barrière à l'entrée pour la production vidéo de qualité chuter rapidement, et Vidu Q2 est l'un des principaux moteurs de ce processus.
Bien sûr, des questions subsistent concernant les droits d'auteur et la façon dont de tels outils seront utilisés pour créer des deepfakes, mais le progrès technologique ne peut pas être arrêté. Vidu Q2 Reference Pro établit un nouveau standard de contrôlabilité auquel Luma, Runway et surtout OpenAI devront inévitablement s'efforcer d'atteindre. Dans un monde où un outil « intelligent » peut copier une performance de jeu ou un style visuel complexe en quelques minutes, la valeur d'une idée devient supérieure à la valeur de l'exécution technique.
L'essentiel : Vidu Q2 transforme la génération vidéo d'une loterie en un processus géré, en pariant sur les créateurs de contenu professionnels. Sora pourra-t-il offrir quelque chose de plus fonctionnel que de simples jolis dessins quand il sera enfin lancé ?
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.