Project Genie de Google DeepMind : comment créer des mondes entiers avec des prompts textuels
Google DeepMind a publié un guide d'utilisation de Project Genie — un système de génération de mondes virtuels interactifs à partir de prompts textuels…
Traité par IA depuis Google AI Blog ; édité par Hamidun News
Imaginez que pour créer un niveau de jeu vidéo ou un monde virtuel, vous n'aviez plus besoin d'une équipe de designers, de programmeurs et d'artistes. Il suffit d'écrire quelques phrases—et le système générera un espace interactif dans lequel vous pourrez vous déplacer et interagir. C'est exactement ce que promet Project Genie de Google DeepMind, et maintenant l'entreprise partage des recommandations pratiques pour travailler avec cet outil.
Project Genie n'est pas exactement un nouveau projet. Les premières mentions sont apparues en 2024, lorsque Google DeepMind a présenté un modèle de recherche capable de générer de simples plates-formes bidimensionnelles à partir d'une seule image ou description textuelle. Cependant, depuis, le système a parcouru un long chemin. Dans son itération actuelle, Project Genie permet de créer des espaces virtuels nettement plus complexes et détaillés, et la qualité du résultat dépend directement de la manière dont l'utilisateur formule sa demande. C'est pourquoi Google a décidé de publier une sorte de guide d'ingénierie de prompts adapté spécifiquement à la génération de mondes.
Les quatre principes que propose Google DeepMind peuvent sembler évidents à première vue, mais chacun d'eux est soutenu par une compréhension profonde de la façon dont les modèles génératifs interprètent les demandes des utilisateurs. Le premier et peut-être le plus important est la spécificité de la description. Le modèle fonctionne considérablement mieux quand, au lieu d'une « belle forêt » abstraite, vous décrivez « une forêt dense de conifères avec du brouillard matinal entre les troncs de pins et de la mousse douce sur les rochers ».
Le deuxième principe concerne la structure spatiale : Genie comprend mieux les prompts qui spécifient explicitement les relations entre les objets—ce qui est au premier plan, ce qui est à l'arrière-plan, quels éléments dominent la scène. Le troisième principe est l'itérativité : le système prend en charge l'affinement séquentiel du résultat, et les meilleurs mondes ne naissent pas de la première demande, mais d'une série d'affinements. Enfin, le quatrième principe est lié à l'interactivité—il est recommandé aux utilisateurs de spécifier explicitement quels éléments du monde doivent être dynamiques et lesquels doivent être statiques.
Techniquement, Project Genie représente la prochaine étape évolutive après les modèles génératifs pour les images et les vidéos. Si Imagen et Veo ont appris à créer du contenu statique et dynamique visuellement convaincant, alors Genie ajoute une couche d'interactivité—la capacité non seulement de regarder un monde généré, mais d'agir à l'intérieur. C'est une tâche fondamentalement plus complexe car le modèle doit non seulement créer un espace visuellement cohérent, mais aussi tenir compte de la physique des objets, de la logique des interactions et de la cohérence du monde lors du changement de l'angle de vue.
Essentiellement, Google DeepMind construit une base pour ce que l'industrie appelle la « génération procédurale de nouvelle génération »—sauf qu'à la place des règles algorithmiques, la compréhension des réseaux de neurones sur la façon dont les espaces fonctionnent est à l'œuvre.
Les conséquences de cette technologie pour l'industrie sont difficiles à exagérer. Le game design est le premier et le plus évident domaine d'application. Les développeurs indépendants qui n'ont pas les ressources pour créer de vastes mondes de jeux obtiennent un outil capable d'accélérer radicalement le prototypage. Mais le potentiel de Project Genie s'étend bien au-delà des jeux. Les architectes peuvent utiliser des systèmes similaires pour visualiser rapidement des concepts spatiaux. Les plateformes éducatives peuvent les utiliser pour créer des reconstructions historiques interactives ou des simulations scientifiques. Les métavers, dont on parlait tellement il y a quelques années, soudainement prennent un sens pratique si le remplissage des espaces virtuels de contenu cesse d'être un goulot d'étranglement.
Il est également important de noter le contexte concurrentiel. Google n'est pas la seule entreprise travaillant sur la génération d'environnements interactifs. Une recherche similaire est menée chez Meta et dans plusieurs startups, comme World Labs de Fei-Fei Li. Cependant, Google a un avantage significatif—l'intégration de l'écosystème. Project Genie pourrait potentiellement être lié à Google Maps pour générer des espaces urbains réalistes, à YouTube pour apprendre de milliards d'heures de contenu vidéo, à Android pour la distribution mobile. C'est un cas où la supériorité infrastructurelle pourrait s'avérer décisive.
Néanmoins, la publication d'un guide pratique plutôt qu'un rapport technique complet soulève des questions. Google veut clairement attirer un large public de créateurs de contenu vers Project Genie, mais ne révèle pas pour l'instant les détails sur l'accessibilité de l'outil, ses limitations et les plans de commercialisation. Le simple fait que l'entreprise apprenne aux utilisateurs à rédiger des prompts pour la génération de mondes suggère que la technologie approche du stade d'un produit public.
La question est seulement si Project Genie deviendra un service autonome, une partie de Google Cloud ou un composant d'une plateforme plus large. En tout cas, la ligne entre « décrire un monde » et « construire un monde » devient de plus en plus fine, et c'est l'une des tendances les plus intrigantes du développement de l'intelligence artificielle générative.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.