Habr AI→ original

Google combine Street View et l'IA pour créer des mondes virtuels d'entraînement

Google a dévoilé une nouvelle version de Project Genie — une IA qui génère des mondes 3D entièrement fonctionnels basés sur les coordonnées de Google Street Vie

Google combine Street View et l'IA pour créer des mondes virtuels d'entraînement
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Google a présenté une mise à jour de Project Genie — un modèle génératif qui crée des mondes 3D entièrement fonctionnels liés aux coordonnées réelles de Google Street View. Pour la première fois, l'IA a acquis la capacité non seulement de générer des vidéos, mais de créer des environnements virtuels interactifs où les robots peuvent apprendre sans contact avec le monde physique.

Que sont les world models

Les world models diffèrent de la génération vidéo ordinaire en ce qu'ils ne se contentent pas de dessiner une séquence d'images — ils construisent une compréhension de la physique, de la causalité et de la structure tridimensionnelle du monde. Le modèle apprend à partir de vidéos et d'exemples d'interaction, puis peut prédire ce qui se passera si un robot effectue une action spécifique. Un robot entraîné sur un tel modèle peut planifier des trajectoires, éviter les obstacles et pratiquer des compétences de navigation complexes dans un environnement virtuel, puis appliquer ces connaissances à la réalité. Ceci est significativement différent des modèles vidéo comme Sora, qui génèrent simplement des séquences vidéo plausibles sans comprendre complètement la physique.

Genie 3 et Google Street View

Google a intégré Project Genie à sa propre base de données Google Street View — des millions de photographies de rues du monde entier avec des coordonnées connues et une géométrie tridimensionnelle. Maintenant, il est possible de sélectionner un lieu réel (par exemple, une place à Londres ou une rue à New York) et l'IA générera un monde 3D complet de ce lieu avec des proportions correctes. Les robots peuvent s'entraîner sur des itinéraires de villes réelles sans quitter le data center. Ceci est critique pour les systèmes autonomes : au lieu de millions d'heures de conduite réelle, un véhicule apprend dans un environnement virtuel accéléré. Waymo teste déjà cette approche pour ses véhicules autonomes.

  • Liaison aux coordonnées réelles de Google Street View
  • Génération de géométrie 3D complète avec physique
  • Environnement interactif où un robot agit et voit les résultats
  • Scalabilité : les mondes peuvent être générés pour n'importe quel endroit sur Terre

Pipeline de production : Unity et Blender

Le plus important dans la nouvelle version est l'intégration avec les outils que les développeurs utilisent déjà. Google a ajouté des connecteurs MCP pour Unity et Blender, permettant d'utiliser les mondes générés directement dans les moteurs préférés sans export et conversion. Un développeur peut sélectionner un lieu dans Google Street View, obtenir une scène 3D prête, l'importer dans Unity ou Blender et ajouter de la logique, des personnages et de l'interactivité. Auparavant, ce processus nécessitait des semaines de travail manuel par des artistes 3D. Maintenant, la scène initiale est générée automatiquement en quelques minutes.

Pourquoi cela change gamedev et robotique

Pour la robotique, c'est une accélération de mois de développement. Pour gamedev — une réduction de la barrière à l'entrée pour les développeurs indépendants qui auparavant devaient soit embaucher des artistes coûteux, soit utiliser des assets prêts. Une ville basée sur un lieu réel est maintenant générée en secondes. Waymo, Boston Dynamics et d'autres entreprises ont prouvé que la simulation de qualité est critique pour l'IA pratique. Genie 3 rend la simulation scalable et liée à la réalité.

Ce que cela signifie

Les world models font la transition des laboratoires de recherche vers un outil de travail. La prochaine étape de l'IA en robotique et gamedev ne sera pas sur la génération vidéo, mais sur la création d'un monde interactif dans lequel un agent peut agir et apprendre. Google a déjà montré comment cela fonctionne en pratique.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…