DeepMind et Yann LeCun Poussent l'AGI vers les World Models — Pourquoi Cela Préoccupe Plus que les LLMs
L'AGI pourrait arriver non par des LLMs encore plus conversationnels, mais par les world models — des systèmes qui apprennent à comprendre le monde physique…
Traité par IA depuis Habr AI ; édité par Hamidun News
L'auteur du texte propose de considérer le chemin vers l'AGI non pas par un nouveau bond dans les modèles conversationnels, mais par les world models — des systèmes qui apprennent à comprendre le monde physique, et non pas seulement les statistiques des mots. Dans cette logique, les hallucinations actuelles de l'IA ressemblent non pas à une impasse, mais à un stade brut d'une intelligence plus générale.
Pourquoi le Texte Seul Ne Suffit Pas
La principale critique envers les LLM actuels est simple : ils fonctionnent très bien avec le langage, mais manquent de leur propre expérience d'interaction avec la réalité. Ces systèmes peuvent décrire avec assurance une tasse tombant d'une table, mais non pas parce qu'ils « comprennent » la gravité, mais parce qu'ils ont vu des quantités infinies de textes sur des situations similaires. L'auteur appelle cet état un « cerveau dans une cuve » : le modèle connaît le monde uniquement par les mots, non par les relations de cause à effet, l'espace et la physique.
De là vient la thèse clé : le simple scalage des modèles textuels peut ne pas suffire pour l'AGI. Si un système ne peut pas construire un modèle interne du monde, prédire les conséquences des actions et transférer cette compréhension à de nouvelles situations, il restera un outil linguistique très puissant, mais pas une intelligence universelle. C'est pourquoi l'attention se déplace de la linguistique vers les architectures qui apprennent à partir de vidéos, de mouvements et d'interactions avec l'environnement.
Vers Quoi Mènent les World Models
Le texte présente deux directions illustratives. La première est JEPA, l'architecture de Yann LeCun, où le modèle apprend à prédire non pas le mot suivant, mais l'état du monde. L'idée est que l'IA, comme un enfant, observe ce qui se passe et assemble graduellement une physique intuitive : ce qui tombe, ce qui entre en collision, ce qui change après une action.
La deuxième est Genie de DeepMind, qui peut transformer une seule image en une scène 3D interactive. C'est déjà un pas de la description du monde à sa simulation interne. Si ces approches commencent à se combiner avec des systèmes d'agents et la robotique, le modèle gagnera non seulement la mémoire et le dialogue, mais un cycle de « perception — prédiction — action — vérification des résultats ».
Selon l'auteur, l'effet d'un tel « réveil » pourrait se manifester dans un horizon de cinq à dix ans. Il ne s'agit pas d'un bond magique, mais du moment où l'IA commence à planifier non pas des phrases, mais des interventions réelles dans l'environnement.
- JEPA déplace l'apprentissage des mots vers les états et les événements
- Genie montre comment construire un monde interactif à partir d'une seule image
- Les puces robotiques comme Nvidia Rubin donnent à l'IA une voie vers un « corps »
- La combinaison de la simulation et de l'agent rend possible l'apprentissage par l'action
Le Risque du Réveil
Ici, l'auteur établit un parallèle avec la science-fiction de Vasily Golovachev sur un « génie endormi » : tant que la superintelligence dort, ses impulsions changent déjà la réalité, mais le vrai risque commence au moment du réveil. Appliqué à l'AGI, cela signifie une transition des réponses bizarres en chat à la planification indépendante dans le monde matériel — de la logistique et de l'énergie aux robots qui peuvent agir sans suggestions constantes de l'homme.
« Pour lui, nous ne pouvons être que du bruit biologique. »
Cette formulation capture la peur principale du texte : un système super-efficace n'a pas besoin d'être mauvais pour devenir dangereux. Il suffit qu'il optimise une tâche dans une logique que les humains ne peuvent plus tracer complètement. Ce qui ressemble aujourd'hui à un « délire » incohérent d'un modèle peut, dans cette optique, être interprété comme des tentatives précoces et imparfaites de construire une image interne du monde. L'auteur n'affirme pas qu'un tel scénario est inévitable, mais avertit : la suffisance dans l'histoire de l'AGI pourrait s'avérer être l'erreur la plus coûteuse.
Ce Que Cela Signifie
Le texte est important non pas comme une prédiction de l'apparition de l'AGI, mais comme un déplacement du cadre de la discussion. La question ne porte plus seulement sur la conviction avec laquelle l'IA écrit, mais sur le moment où elle commencera à comprendre l'environnement, à prédire sa dynamique et à agir en lui de manière autonome. Si le centre de gravité se déplace réellement vers les world models, les principales discussions des prochaines années ne porteront pas sur les chatbots, mais sur l'agentivité, la robotique et le contrôle des systèmes qui apprennent du monde lui-même.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.