AMI Labs Mise sur les Modèles du Monde au-delà de LLM et Voit un Chemin vers les Produits via VLA
AMI Labs, un projet de Yann LeCun, avance les modèles du monde comme l'étape suivante après LLM: au lieu de prédire des tokens—comprendre l'environnement et…
Traité par IA depuis Habr AI ; édité par Hamidun News
Après l'essor des LLM, AMI Labs propose de déplacer le centre de gravité de l'IA du langage à la compréhension de l'environnement physique : une machine ne peut pas simplement continuer du texte si elle doit agir de manière sûre dans le monde réel, planifier des étapes et évaluer à l'avance les conséquences de ses décisions. AMI Labs est une entreprise de recherche fondée par Yann LeCun, l'un des principaux pionniers de l'apprentissage profond. Le projet a attiré 1,03 milliard de dollars lors d'une évaluation pré-investissement de 3,5 milliards de dollars, démontrant que l'intérêt pour les modèles du monde a dépassé la discussion académique.
L'entreprise opère à partir d'une prémisse simple : les données provenant de caméras, de capteurs et d'instruments sont structurées différemment du texte. Elles sont continues, bruyantes, multidimensionnelles et mal adaptées à la logique du « prédire le prochain token ». Au lieu d'adapter les LLM à n'importe quel scénario, AMI s'appuie sur une couche fondamentale différente : un modèle du monde.
Ici, un modèle du monde n'est pas un générateur vidéo ni simplement un système multimodal avec des images, du texte et des actions en entrée. Il s'agit d'un modèle qui construit une représentation interne cachée de l'environnement, identifie les relations stables et rejette les détails aléatoires. Ce qui compte n'est pas chaque pixel de la frame future, mais la structure de ce qui se passe : où se trouvent les objets, comment ils se déplacent, quelles contraintes l'environnement a et ce qui changera après qu'un agent agisse.
Une telle architecture doit répondre non seulement à « qu'est-ce que je vois » mais aussi à « qu'arrivera-t-il si je fais cela ». C'est précisément pour cela que JEPA—Joint Embedding Predictive Architecture—devient central dans l'approche. Dans cette logique, le modèle prédit non pas des données brutes ni une séquence de tokens, mais un état dans un espace de représentation.
Cela permet au système d'éviter de dépenser du calcul sur du bruit et des variations aléatoires, et d'apprendre plutôt à partir de caractéristiques vraiment significatives de la scène. Un argument pratique en faveur de cette approche est déjà apparu dans la recherche V-JEPA 2 : le système a d'abord été préentraîné sur plus d'un million d'heures de vidéo Internet, puis affiné avec une version conditionnée par les actions sur moins de 62 heures de vidéo robotique non étiquetée. Après cela, le modèle en mode zero-shot a pu fonctionner avec des manipulateurs Franka dans de nouveaux laboratoires, effectuant la préhension et le déplacement d'objets sans collecter de données spécifiquement pour cet environnement et sans fonction de récompense.
Mais le modèle du monde lui-même n'est pas encore un agent complet. Il peut prédire comment les situations vont évoluer, mais quelqu'un doit traduire cette compréhension en actions concrètes. C'est ici que VLA, couche vision-langage-action, apparaît, reliant la perception, l'intention de l'utilisateur, la commande linguistique et les actions autorisées du système.
Une thèse importante d'AMI et des travaux connexes est que VLA et les modèles du monde ne sont pas en concurrence. Au contraire, sans prédiction interne, VLA reste trop réactif : il peut produire l'action correcte « pour l'instant », mais lutte contre les scénarios longs, fragiles et physiquement sensibles où il faut mentalement simuler les conséquences du toucher, du mouvement, de la collision ou de l'erreur. C'est pourquoi les marchés les plus évidents pour cette approche ne sont pas les interfaces de chat, mais les industries où le coût de l'erreur est élevé : l'automatisation industrielle, la robotique, les appareils portables et la santé.
Si un modèle de texte commet une erreur en résumant un article, les dégâts sont limités. Si un système intelligent mal interprète l'état de l'équipement, évalue mal les risques en médecine ou calcule mal la trajectoire d'un robot, les conséquences sont déjà physiques. Remarquablement, le premier partenaire d'AMI s'appelle Nabla de la médecine numérique.
Cela ne signifie pas que l'entreprise a déjà résolu le problème de l'IA fiable pour les environnements cliniques, mais cela montre la direction : moins l'accent sur les démos spectaculaires et plus sur la contrôlabilité, la prévisibilité et la simulation interne de l'environnement avant d'agir. La conclusion principale est qu'après l'ère des LLM, la conversation sur l'IA se déplace graduellement de la description linguistique du monde à sa modélisation interne. L'approche d'AMI reste encore un programme de recherche plutôt qu'un remplacement prêt pour les grands modèles de langage : le terme « modèle du monde » devient déjà flou, et le transfert vers de nouveaux environnements reste à démontrer.
Mais si cette ligne fonctionne, le prochain progrès pratique en IA pourrait ne pas venir d'un autre chatbot, mais de systèmes qui comprennent d'abord la réalité physique et agissent ensuite en son sein.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.