Jiqizhixin (机器之心)→ original

Modèles du monde : pourquoi les générateurs vidéo ne sont pas du cinéma, mais de la physique de la réalité

Quand OpenAI a lancé Sora, tout le monde s'est précipité pour discuter de la rapidité avec laquelle Hollywood serait envoyé à la poubelle de l'histoire. Mais…

Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Modèles du monde : pourquoi les générateurs vidéo ne sont pas du cinéma, mais de la physique de la réalité
Source : Jiqizhixin (机器之心). Collage: Hamidun News.
◐ Écouter l'article

Quand OpenAI a lancé Sora, tout le monde s'est précipité pour discuter de la rapidité avec laquelle Hollywood serait envoyé à la poubelle de l'histoire. Mais si vous laissez de côté l'enthousiasme à propos des poils de mammouth et des enseignes néon de Tokyo, ce qui reste est quelque chose de beaucoup plus fondamental. Nous assistons à une transition de la simple prédiction du prochain pixel à la création de véritables modèles du monde.

Ce n'est pas simplement un changement de terminologie, mais un changement tectonique dans la manière dont les machines perçoivent notre réalité. Pendant longtemps, l'IA a vécu dans un monde de texte et d'images statiques, mais maintenant elle tente de maîtriser le concept du temps et des relations de cause à effet.

Pourquoi avons-nous besoin de modéliser le monde ? Imaginez que vous vouliez apprendre à un robot à faire du café. Auparavant, vous deviez soit écrire des milliers de lignes de code, soit forcer la machine à faire des erreurs des millions de fois dans la réalité, en cassant des tasses et en inondant le sol d'eau.

Un modèle du monde permet à l'IA de "rejouer" ces scénarios dans sa tête, en utilisant un simulateur universel du monde. C'est une sorte d'imagination numérique qui ne repose pas sur la fantaisie, mais sur les lois de la physique acquises. L'ironie est que l'IA déduit elle-même ces lois, simplement en regardant des térabits de vidéo, sans une seule formule du manuel de Newton.

Le problème est que les modèles actuels sont toujours enclins à des "hallucinations physiques." Vous avez certainement vu des vidéos où des personnes traversent des murs ou des objets disparaissent sans trace. Cela se produit parce que les réseaux de neurones ne comprennent pas encore l'essence des objets—ils sont simplement des maîtres des probabilités. Cependant, les nouvelles approches de recherche visent à intégrer la compréhension de l'espace et du temps dans l'architecture des modèles par le biais de représentations cachées. Cela permettra à l'IA non seulement de dessiner des images, mais de comprendre que si une balle roule vers le bord d'une table, elle tombera inévitablement vers le bas plutôt que de se transformer en papillon.

Pour l'industrie, cela signifie la fin de l'ère des "boîtes noires" qui produisent simplement des résultats. Nous nous dirigeons vers des systèmes qui peuvent justifier leurs actions par la simulation des conséquences. Des entreprises comme Wayve ou Tesla utilisent déjà des versions primitives de modèles du monde pour les pilotes automatiques, mais les ambitions des chercheurs vont plus loin. Ils veulent créer un environnement unifié où l'IA puisse tester des hypothèses scientifiques ou concevoir de nouveaux matériaux, en vérifiant leur résistance dans un monde virtuel identique au nôtre.

Qu'est-ce que cela signifie pour nous ? Il est probable que dans les prochaines années, nous verrons une croissance explosive en robotique. Les robots cesseront d'être des machines maladroites parce qu'ils arriveront dans notre monde déjà "expérimentés," ayant vécu des milliers de vies virtuelles dans des simulateurs. La génération vidéo restera un agréable bonus pour les créateurs de contenu, mais la véritable percée se produira où l'IA commencera à prédire le comportement de systèmes complexes—du changement climatique au repliement des protéines. Nous enseignons enfin aux machines non seulement à nous imiter, mais à comprendre comment est structurée la scène sur laquelle nous jouons tous.

L'essentiel : L'IA deviendra-t-elle un "dieu numérique" à part entière ou restera-t-elle un lecteur vidéo avancé avec des hallucinations ? La réponse réside dans le fait que nous puissions lui enseigner non seulement à regarder, mais à comprendre l'inertie, la friction et la gravité.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…