Les modèles mondiaux : seront-ils la clé de l'autopilote ?
Les constructeurs automobiles utilisent activement les « modèles mondiaux » pour former et tester les systèmes de conduite autonome. Cela permet de créer des…
Traité par IA depuis 36Kr (36氪) ; édité par Hamidun News
Au cours des deux dernières années, quand on parle de conduite autonome, les constructeurs automobiles mentionnent inévitablement divers nouveaux termes techniques. Après l'apprentissage bout à bout et les VLA, le « modèle mondial » est le terme le plus à la mode dans le domaine de la conduite autonome. Différentes entreprises lui ont même donné de nouvelles formes : Xiaopeng a présenté le « Modèle mondial de base », NIO l'a appelé « Modèle mondial bout à bout », et Huawei l'a nommé « Modèle mondial de comportement » (WA). En plus d'eux, Horizon Robotics, Li Auto, Yuanrong Qixing et Momenta travaillent également sur des modèles mondiaux.
Cependant, selon leurs conférences de presse, il est difficile de déterminer si le modèle mondial dont ils parlent est le même. Quel problème résout-il et dans quelle partie de l'architecture de la conduite autonome est-il placé ? En regardant le contexte plus large, le « modèle mondial » est essentiellement la recréation du monde réel dans un monde virtuel, une technologie qui permet à l'IA de comprendre le monde réel, d'apprendre les lois de la physique, les relations de cause à effet des choses et la dynamique de l'environnement, tout comme un humain.
La plupart des scientifiques et des entreprises technologiques considèrent les modèles mondiaux comme un élément clé de l'« IA du monde physique ». La professeure de l'Université de Stanford, Li Feifei, a un jour noté que l'intelligence spatiale est la prochaine décennie de l'IA, et le modèle mondial est la technologie clé pour construire l'intelligence spatiale. Les scientifiques et les entreprises technologiques à la pointe de l'industrie sont toujours en phase d'exploration, mais l'industrie automobile chinoise s'est déjà positionnée en utilisant divers nouveaux termes conceptuels.
En fait, le « modèle mondial » dont on parle aujourd'hui dans l'industrie de la conduite autonome n'est qu'une différence de dénomination, et sur le plan technologique, il n'y a pas grande différence. C'est simplement une mise à jour du paradigme technologique des outils de modélisation originaux de l'industrie, une solution aux problèmes de test et de vérification des modèles bout à bout dans un monde virtuel avec un degré de fidélité plus élevé, une meilleure granularité, des scénarios plus riches et un plus grand degré de liberté. Tout cela pour entraîner un modèle de conduite autonome bout à bout plus efficace et ressemblant à l'humain.
En d'autres termes, les fabricants de systèmes de conduite autonome et les constructeurs automobiles ne créent pas réellement une réalité physique numérique complète, mais utilisent simplement l'idée du modèle mondial pour créer un simulateur. Chaque entreprise peut avoir des attentes différentes du modèle mondial, mais à notre connaissance, à l'heure actuelle, le modèle mondial dans l'industrie de la conduite autonome n'est appliqué que dans le cloud et n'est pas utilisé dans les véhicules.
La généralisation de l'apprentissage bout à bout a mis en lumière les défauts des simulateurs. Au cours des deux à trois dernières années, les principales solutions de conduite autonome sont passées d'une pile de règles à une gestion basée sur l'IA et ont réalisé une intégration « formelle ». La perception, la prédiction et la planification ont été intégrées au maximum dans un seul réseau, en plus de modèles plus grands et d'une puissance de calcul plus élevée. Comme les constructeurs automobiles le disent souvent lors de leurs conférences de presse, « la conduite autonome après apprentissage bout à bout ressemble plus à la conduite humaine ».
Cependant, dans l'application réelle, un phénomène contre-intuitif a surgi : les nouvelles versions OTA après apprentissage bout à bout ne s'améliorent pas nécessairement et peuvent même « se dégrader ». Le problème fondamental n'est pas que le modèle s'est aggravé, mais que la gestion basée sur l'IA rend difficiles l'évaluation et la régression. À l'époque, de nombreux spécialistes de la conduite autonome pensaient que tant que le frontend était suffisamment bien entraîné, la voiture roulerait comme un humain.
Cette approche n'a pas été sans résultats, et les résultats initiaux de l'apprentissage bout à bout ont époustouflé de nombreux spécialistes de la conduite autonome, mais la « boîte noire » de l'apprentissage bout à bout a aussi des effets secondaires. Quand le modèle se trompe, il est difficile pour les développeurs de savoir pourquoi l'erreur s'est produite. Comment prouver que cela ne se reproduira pas la prochaine fois ?
Qu'un modèle soit bon ou non dépend non seulement de « sa taille et de la quantité de données », mais aussi de la manière dont vous détectez les problèmes, les identifiez et les vérifiez. Les fabricants ont progressivement réalisé qu'ils avaient besoin d'un meilleur simulateur pour évaluer les performances du modèle à l'étape de vérification du modèle.
La plupart des principaux acteurs créent des modèles mondiaux à utiliser comme simulateurs. Pour permettre à un VLA idéal de mener un apprentissage par renforcement dans un environnement de simulation, Li Auto a proposé en 2025 un modèle mondial de conduite incluant les trajectoires de ses propres véhicules ainsi que d'autres, servant de tuteur évaluateur ; Xiaopeng, bien qu'annonçant seulement un « Modèle mondial de base » qui n'est essentiellement pas lié au modèle mondial, mais selon 36Kr Auto, Xiaopeng utilise également un modèle mondial pour la simulation et les tests afin d'évaluer les capacités de l'algorithme de la nouvelle version du modèle.
La généralisation de l'apprentissage bout à bout a mis en évidence les défauts des simulateurs traditionnels. « Avant que l'apprentissage bout à bout ne devienne si populaire, le coût de la vérification pour tous n'était pas si élevé, et ils pouvaient toujours vérifier le système par pièces. Maintenant qu'il y a apprentissage bout à bout, il n'y a pas moyen de vérifier le système par pièces, et à ce moment, le problème du simulateur devient évident », a déclaré un développeur de l'industrie.
À l'époque des règles, les constructeurs automobiles créaient des simulations qui servaient souvent deux objectifs : l'un était de reproduire les problèmes d'interception à mi-parcours, de revenir et de reproduire des fragments qui se sont produits lors d'essais routiers ; l'autre était d'utiliser les simulateurs pour enrichir les données sur les cas extrêmes, en créant plusieurs carrefours typiques, des piétons traversant la route et des scénarios d'insertion de véhicules dans le simulateur afin que le système puisse les traverser. À cette époque, le simulateur jouait le rôle d'une « loupe », mais après l'apprentissage bout à bout, le modèle est difficile à diviser en pièces, et il est difficile de générer systématiquement des cas extrêmes plus petits et gérables, et encore plus difficile de maintenir la vérification en boucle fermée à grande échelle nécessaire pour l'apprentissage bout à bout – et c'est exactement pourquoi le modèle mondial a été introduit.
À l'époque de l'apprentissage bout à bout, le modèle mondial est l'« entraîneur » du modèle de conduite autonome. « Actuellement, le niveau des modèles mondiaux des constructeurs automobiles nationaux est à une certaine distance de Tesla, mais l'écart est inférieur à un an », a déclaré un initié de l'industrie.
Tesla n'a pas utilisé le concept de « modèle mondial », mais le terme « simulateur mondial » (le vice-président de Tesla pour la conduite autonome, Ashok Elluswamy, l'a mentionné pour la première fois à l'ICCV de l'année précédente). Le simulateur est basé sur un vaste ensemble de données créé par Tesla lui-même et génère l'état futur en fonction de l'état actuel et des actions suivantes. Ainsi, il est bouclé avec le modèle bout à bout de base côté véhicule pour évaluer l'effet réel.
Un initié de l'industrie a noté que Tesla ressemble davantage à l'utilisation de réseaux de neurones pour « adapter » le monde. Le processus de rendu est généré par calcul afin de minimiser la superposition explicite des règles physiques ; la bibliothèque matérielle n'est pas entièrement prédéterminée par les humains à l'avance, mais conserve un certain poids de probabilité et un espace de combinaisons. L'avantage de cette approche est que le modèle possède une capacité de généralisation plus forte.
Les constructeurs automobiles nationaux empruntent une voie différente et plus « contrôlée ». Selon un fournisseur qui s'est entretenu avec 36Kr Auto, Li Auto utilise la reconstruction 3D gaussienne – c'est aussi l'une des méthodes actuellement utilisées par la plupart des constructeurs automobiles.
Quel que soit l'itinéraire choisi, le modèle mondial pointe finalement vers la même position sur le plan de l'ingénierie : le modèle mondial est utilisé par les constructeurs automobiles comme un « système de vérification et de réfutation » à l'époque de l'apprentissage bout à bout, pour reproduire, réécrire et étendre les situations qui peuvent se produire en conduite réelle dans le cloud, vérifier si la sortie du grand modèle côté véhicule est stable et reproductible, et transformer « où c'est mal et pourquoi c'est mal » en une chaîne de preuve traçable.
Le rôle du modèle mondial est similaire à celui d'un entraîneur, et un excellent entraîneur peut former d'excellents athlètes. « À mesure que le modèle mondial en cloud devient de plus en plus fort, théoriquement, la capacité du modèle bout à bout entraîné côté doit devenir de plus en plus forte », a déclaré un développeur.
Les capacités principales du modèle mondial incluent essentiellement deux aspects : l'un est la modélisation numérique et l'abstraction du monde physique ; l'autre est l'imagination intelligente et la prédiction du monde physique basées sur cette modélisation, par exemple, la prédiction de la façon dont le monde futur changerait en fonction d'images données. Qu'un modèle mondial soit bon ou non dépend de sa capacité à générer suffisamment de données réalistes et diversifiées dans le cloud. « Si un constructeur automobile n'utilise que les données réelles collectées pour la modélisation, il n'est clairement pas en train de créer un modèle mondial, mais simplement un ensemble de processus de reproduction de données », a déclaré un responsable produit d'un fournisseur.
Un modèle mondial doit apprendre le mode de fonctionnement du monde à partir des données du monde physique, donc la qualité des données d'entraînement du modèle mondial affectera considérablement la qualité générique du modèle. Mao Jimin, responsable de la gamme de produits de JIJIA Vision, a mentionné : « Pour un modèle génératif tel qu'un modèle mondial, ses résultats de génération correspondent finalement aux schémas de distribution des caractéristiques des données d'entrée. Dans le processus de commercialisation d'un véritable modèle mondial, nous avons découvert que si la qualité des données n'est que de 60 points, alors la qualité des données générées par ce modèle mondial ne peut être que de 55 points ».
Sur la base du modèle mondial, les constructeurs automobiles peuvent générer illimitément les scénarios nécessaires à partir de différentes dimensions lors de la simulation dans le cloud et peuvent générer des vidéos comme données d'entraînement selon les instructions. « L'efficacité n'est pas seulement légèrement supérieure à la collecte réelle puis à l'entraînement, mais la vitesse d'itération du modèle sera déterminante à cette époque », a déclaré un développeur d'un fournisseur.
Mais ce sont tous des résultats idéalisés. « Le modèle mondial est une grande mise à jour par rapport au simulateur utilisé pour la conduite autonome, ou en d'autres termes, l'absence d'information de simulation, et ne peut être vérifié que par des données autonomes, mais il est toujours loin du simulateur idéal ».
L'algorithme du modèle mondial n'est pas encore mature, et il y a toujours beaucoup d'« hallucinations ». À l'heure actuelle, l'industrie dans son ensemble est au stade « initial ».
Un développeur d'un constructeur automobile a confié à 36Kr Auto que les fabricants nationaux peuvent générer des clips vidéo d'une durée de 30 à 60 secondes basés sur un modèle mondial, mais la cohérence des objets dynamiques n'est pas très bonne, et il existe de grands problèmes tant en termes de cohérence spatiotemporelle que de cohérence multivue.
Un modèle mondial est fondé sur un modèle génératif, et un modèle génératif est par nature associé au risque d'« hallucinations ». « Le plus difficile dans le modèle mondial à l'heure actuelle est de garantir que les choses générées sont réelles. Si une personne est générée, comment garantir que son comportement et sa trajectoire peuvent se produire dans le monde réel ? », a déclaré un responsable produit d'un fournisseur. « Si le modèle mondial crée de la confusion, cela amènerait le modèle à apprendre des mauvaises choses, ce qui aurait un très mauvais effet sur le modèle déployé côté véhicule ».
Un exemple extrême : si les voitures générées dans le cloud se déplacent latéralement, le modèle considérerait qu'une voiture à l'avant gauche se déplacerait instantanément vers l'avant droit. Pendant le processus de conduite réelle, le modèle pourrait freiner.
Si le simulateur ne peut pas se rapprocher des relations de cause à effet clés du monde réel, telles que l'effet d'une route glissante sur la distance d'arrêt, la probabilité de fausses détections d'objets statiques en lumière contrejour, la stratégie de négociation d'un véhicule venant en sens inverse lors d'un changement de voie, etc., alors le « cas extrême » qu'il génère peut s'avérer faux ; l'optimisation basée sur de faux problèmes équivaut à gaspiller les ressources de développement sur des fantômes.
Beaucoup pensent que le goulot d'étranglement du modèle mondial est les données et la puissance de calcul, mais Xia Zhongpu, ancien responsable du modèle « bout à bout » de conduite autonome chez Li Auto, est davantage d'accord avec le point de vue de LeCun : « Il n'y a pas de grandes percées dans l'algorithme du modèle mondial, et l'apprentissage autosupervisé des modèles d'image n'a pas encore trouvé un paradigme aussi fluide que celui du langage ».
La raison pour laquelle les modèles linguistiques peuvent se mettre à l'échelle rapidement est que la langue elle-même a une haute densité d'information, et chaque mot porte des contraintes sémantiques claires. Et la densité d'information d'une image est faible, et pour une « décision de conduite », les informations utiles ne constituent qu'une petite partie.
Par exemple, le modèle n'a pas besoin de prédire la trajectoire d'une voiture loin derrière, et n'a pas besoin de prédire les changements de bâtiments lointains, ce sont tous du bruit ; mais il doit prédire si la voiture devant freiner brusquement sur cette voie, si la voiture sur la voie voisine se prépare à changer de voie, si un piéton s'apprête à traverser brusquement la route, le modèle doit d'abord savoir « sur quoi se concentrer ».
« Actuellement, l'algorithme de conduite autonome ne peut pas extraire suffisamment d'informations utiles de l'image pour la conduite », a déclaré Xia Zhongpu. Une image peut contenir des millions de pixels, mais seuls 20 pixels ou plus sont liés à la prise de décision, le reste étant du bruit. Le modèle doit d'abord apprendre à extraire 1 ‰ ou même 1 ‱ de signal utile du bruit, puis parler de la façon d'organiser le signal dans une structure qui peut être utilisée pour le raisonnement et la prédiction.
Selon Xia Zhongpu, l'algorithme du modèle mondial n'a pas encore percé, sans parler de savoir si les données sont suffisantes et la puissance de calcul nécessaire. Précisément parce que la technologie de base du modèle mondial n'a pas encore connu de percée claire, les investissements des constructeurs automobiles sont plutôt de nature exploratoire, et même certains dirigeants de constructeurs automobiles en sont confus.
Si le modèle mondial était suffisamment bien fait et qu'il pouvait être déployé côté véhicule, si la puissance de calcul pouvait le supporter. « Actuellement, la Chine utilise principalement le modèle mondial comme un système de simulation, et le niveau de compréhension de la technologie de prise de décision pour la conduite autonome n'est pas encore assez élevé », a déclaré Xia Zhongpu.
Cela explique aussi le paradoxe apparent : pourquoi tout le monde parle de modèles mondiaux, mais la différence dans l'expérience utilisateur n'est pas évidente – parce que le modèle mondial de la plupart des gens est toujours au premier stade « utilisé pour l'entraînement et la vérification », et non au deuxième stade « peut soutenir la planification des décisions ».
« Le déploiement du modèle mondial côté véhicule est le plus difficile », a déclaré Xia Zhongpu. Actuellement, aucune entreprise n'applique le modèle mondial côté véhicule. Il a également noté : « L'utilisation d'une méthode de grand modèle pour modéliser le monde physique, prédire les changements dans le développement du monde par interaction avec le monde physique et, par conséquent, influencer le monde par la prise de décision pour se développer dans une direction qui vous convient. Si le modèle mondial atteint ce niveau, il sera possible de résoudre les problèmes associés à la conduite autonome et aux robots ».
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.