Les modèles du monde: comment l'IA apprend à comprendre la réalité plutôt que le texte
Le MIT a organisé une discussion sur les modèles du monde — une nouvelle direction en IA. Les entreprises développent des systèmes qui voient et comprennent…
Traité par IA depuis MIT Technology Review ; édité par Hamidun News
À la conférence de mai de MIT Technology Review, les modèles du monde (world models) ont été discutés — ce qui pourrait être le prochain grand saut dans le développement de l'intelligence artificielle. L'éditeur en chef Mat Honan et le rédacteur en chef senior IA Will Douglas Heaven ont expliqué comment les entreprises tentent d'enseigner aux réseaux de neurones non seulement de traiter le texte, mais de vraiment comprendre la réalité environnante.
Qu'est-ce que les modèles du monde
Un modèle du monde n'est pas une autre version d'un LLM. C'est un système fondamentalement différent qui peut regarder des vidéos, analyser des images, interagir avec l'environnement et prédire les conséquences des actions. Comme une personne qui voit un cube au bord d'une table et comprend qu'il va tomber.
Le réseau de neurones doit acquérir cette compréhension sans instructions explicites, en l'apprenant par l'observation du monde physique. Ces modèles changent le paradigme de l'apprentissage. Au lieu du schéma classique « voici du texte, répondez à la question », un nouveau apparaît : « regardez une vidéo, prédisez ce qui va se passer ensuite ».
Cela nécessite une architecture complètement différente, un ensemble de données différent, une façon différente d'évaluer les erreurs du modèle.
Pourquoi le texte est clairement insuffisant
Les grands modèles de langage modernes sont des champions du traitement de l'information, mais ils sont aveugles au sens littéral. Ils connaissent la gravité uniquement parce que les humains ont écrit à ce sujet des millions de fois sur Internet. Mais ils n'ont jamais vu un objet tomber, n'ont pas ressenti l'inertie, n'ont pas expérimenté la physique. Cela crée des points aveugles spécifiques :
- Ne peuvent pas prédire les interactions physiques à partir des premiers principes
- Se confondent dans les relations spatiales entre les objets dans une vidéo
- Ne sont pas capables de comprendre les relations de cause à effet dans la séquence des images
- Ne sont pas en mesure de planifier des actions sur la base de la physique réelle
- Se trompent dans la prédiction des trajectoires et des collisions
Cette limitation est particulièrement évidente lorsque l'IA tente de contrôler un robot, de planifier la logistique ou de prédire les conséquences des manipulations dans la réalité.
Qui travaille sur les modèles du monde
OpenAI, DeepMind, Tesla et d'autres grandes entreprises investissent activement des ressources dans le développement des modèles du monde. Les approches varient. OpenAI et DeepMind travaillent sur des ensembles de données vidéo de YouTube et des simulations synthétiques. Tesla utilise des millions d'heures de vidéo provenant des caméras de ses voitures pour apprendre au système à voir le monde de la même manière que les humains sur la route. Certaines entreprises commencent par l'apprentissage supervisé sur des vidéos étiquetées. D'autres utilisent l'apprentissage par renforcement dans des simulations contrôlées, où le modèle peut faire des erreurs un million de fois sans conséquences réelles, améliorant progressivement sa compréhension.
Ce que cela signifie
Si les entreprises parviennent à mettre à l'échelle les modèles du monde aussi efficacement qu'elles ont mis à l'échelle les LLM, l'IA passe à un nouveau niveau. Du traitement symbolique de l'information à quelque chose de plus proche d'une véritable compréhension de la réalité physique. La robotique sortira des laboratoires.
Les systèmes autonomes seront plus fiables. La planification de processus complexes s'accélèrera. Mais nous n'en sommes qu'au début du chemin.
MIT Technology Review met l'accent sur cela parce que les modèles du monde sont probablement la direction la plus importante de l'IA pour les prochaines années. Les entreprises qui seront les premières à enseigner à leurs réseaux de neurones à voir et à comprendre le monde obtiendront un énorme avantage concurrentiel.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.