Modèle du monde
Un modèle du monde est une représentation interne qu'un système d'IA apprend des dynamiques de son environnement, lui permettant de prédire les conséquences des actions et de simuler les états futurs sans interagir directement avec le monde réel.
Un modèle du monde est une représentation apprise et compacte des dynamiques de transition d'un environnement — comment les états évoluent en réponse aux actions, quelles observations sont probables à chaque état et quelles récompenses en résultent. Plutôt que de mapper directement les observations aux actions (une politique réactive), un agent avec un modèle du monde peut simuler mentalement les futurs hypothétiques : imaginer ce qui se passerait sous l'action A par rapport à l'action B et choisir en fonction des résultats simulés. Le concept provient de la science cognitive, où la capacité à simuler mentalement l'environnement est considérée comme centrale pour la planification humaine et le raisonnement causal.
Les modèles du monde sont généralement implémentés comme des réseaux de neurones entraînés à prédire les états latents futurs — ou les observations brutes — compte tenu d'un historique d'observations et d'actions passées. DreamerV3 (Google DeepMind, 2023) apprend un modèle de dynamique d'espace latent compact dans lequel une politique et une fonction de valeur sont conjointement optimisées entièrement dans les déroulements imaginés, réduisant considérablement le nombre d'interactions d'environnement réel requises pour maîtriser une tâche. Dans le domaine visuel, les grands modèles de génération vidéo — y compris Sora d'OpenAI (2024) et Genie de Google DeepMind (2024) — fonctionnent comme des modèles du monde implicites : entraînés à prédire les images vidéo futures plausibles, ils codent la plausibilité physique, la permanence des objets et les dynamiques de scène en tant que propriétés émergentes. Google DeepMind et d'autres ont explicitement encadré la prédiction vidéo frame-à-frame suivant comme une voie tractable vers des modèles du monde à usage général pour les agents incarnés.
Les modèles du monde sont importants pour plusieurs raisons. D'abord, ils permettent l'apprentissage efficace en nombre d'échantillons : un agent qui simule son environnement en interne a besoin de beaucoup moins d'interactions du monde réel coûteuses ou dangereuses. Deuxièmement, ils soutiennent la planification interprétable, car un agent peut rapporter quel avenir simulé a justifié son action choisie — une propriété précieuse dans les domaines critiques pour la sécurité. Troisièmement, les modèles du monde se généralisent mieux aux situations nouvelles en encodant la structure causale plutôt que les mappages stimulus-réponse, leur permettant d'extrapoler à des combinaisons état-action non vues pendant l'entraînement.
En 2026, les modèles du monde sont un objectif de recherche principal en robotique, conduite autonome et IA pour jeux. En robotique, Physical Intelligence (pi0), la division robotique de Google DeepMind et Figure utilisent le préentraînement vidéo de style modèle du monde pour transférer les compétences de manipulation sur des objets et environnements divers. En conduite autonome, Waymo et Wayve entraînent des environnements de simulation appris qui remplacent les miles d'essai du monde réel coûteux. La frontière entre les modèles du monde et la génération vidéo à usage général est devenue utilement ambiguë : les systèmes qui produisent de la vidéo physiquement cohérente sont activement réorientés comme simulateurs d'environnement pour l'entraînement d'agents incarnés.