IEEE Spectrum AI→ original

General Motors a montré comment elle entraîne l'autopilot en simulations 50 000 fois plus rapide que la réalité

General Motors a révélé comment elle enseigne l'IA pour la conduite autonome par des simulations, l'apprentissage par renforcement et les modèles VLA…

Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
General Motors a montré comment elle entraîne l'autopilot en simulations 50 000 fois plus rapide que la réalité
Source : IEEE Spectrum AI. Collage: Hamidun News.
◐ Écouter l'article

General Motors, dans un article sponsorisé, a expliqué comment elle construit une IA scalable pour la conduite autonome. L'accent est mis sur les simulations, l'apprentissage par renforcement et les modèles VLA qui aident à former non sur des trajets typiques mais sur des situations rares et dangereuses qui déterminent si le système peut réellement être lancé sur les routes.

Pourquoi les cas limites sont difficiles

Pour un autopilote, le problème n'est pas de conduire sur une autoroute vide par beau temps. Le risque principal est le soi-disant long tail : des épisodes rares, ambigus et difficilement prévisibles qui se produisent rarement mais qui montrent précisément si un système peut être déployé sur les routes sans supervision constante d'un humain. GM affirme directement que le chemin vers le mode eyes-off sur les autoroutes et au-delà vers l'autonomie complète dépend de ce dernier pourcentage de complexité.

Cela inclut non seulement les cas exotiques comme un matelas sur la route, une bouche d'incendie éclatée ou une panne massive de feux tricolores. Les scénarios quotidiens dans le trafic dense urbain sont tout aussi problématiques, où un conducteur doit faire preuve de courtoisie, de bon sens et comprendre rapidement le contexte. Par exemple, comment s'intégrer dans une file d'attente de parking sans bloquer le flux de circulation, ou comment naviguer un chantier où le mouvement est réglementé par les gestes d'un ouvrier plutôt que par des signaux standards.

obstacles inattendus sur la route schémas temporaires de circulation dans les zones de réparation gestes du régulateur de trafic contredisant les signaux de feu tricolore manœuvres complexes dans les parkings étroits * défaillances en cascade de l'infrastructure urbaine ## Comment GM entraîne son modèle L'un des composants clés est les modèles Vision Language Action. Essentiellement, la société prend une architecture vision-language basique qui comprend les images au niveau des concepts généraux et l'adapte pour les tâches de conduite. Après cela, le modèle non seulement « voit » une image mais interprète les trajectoires des véhicules, isole les objets 3D et aide à comprendre ce qui se passe réellement dans une scène routière.

Cela est nécessaire pour que la machine puisse reconnaître qu'un geste d'un policier prime sur un feu rouge ou qu'il y a une zone de débarquement de terminal en avant, pas une voie ordinaire. Le problème est que la compréhension sémantique profonde introduit souvent une latence inutile, et dans la conduite, chaque fraction de seconde est critique. Ainsi, GM développe un schéma Dual Frequency VLA : un grand modèle fonctionne plus lentement et est responsable des décisions sémantiques de haut niveau, tandis qu'un modèle compact gère les boucles de contrôle rapide—direction, freinage et maintien de trajectoire.

Ce hybride, selon le plan de l'entreprise, devrait combiner le « bon sens » des modèles de base et la vitesse de réaction suffisante pour les routes réelles.

Simulations au lieu de routes L'essentiel de la formation se fait non

sur de vraies rues mais dans des simulateurs. GM rapporte qu'elle exécute quotidiennement des millions de scénarios closed-loop de haute précision—équivalent à des dizaines de milliers de jours de conduite humaine comprimés en heures de calcul. L'entreprise peut prendre des trajets réels, modifier la météo et l'éclairage par des modèles de diffusion, ajouter de nouveaux véhicules ou assembler des scènes de zéro sur la base de descriptions textuelles et de boîtes englobantes spatiales.

Pour les tâches de comportement tactique, le photorréalisme n'est pas toujours nécessaire, donc GM utilise un environnement abstrait appelé Boxworld au sein de son propre simulateur RL GM Gym. Seuls les paramètres importants restent : position des objets, vitesse, règles de circulation et interactions entre véhicules. Cela permet d'exécuter d'énormes volumes d'expériences où le modèle apprend non pas à copier les humains mais à trouver une stratégie avec des objectifs mesurables comme la sécurité et la progression.

Cet entraînement se produit à différentes vitesses : jusqu'à 50 000 fois plus rapide que le temps réel environ 1 000 km de conduite virtuelle par seconde de temps GPU milliers de conducteurs virtuels par seconde dans un seul environnement 30 minutes de distillation contre environ 12 heures de RL brut Après cela, les connaissances de l'environnement abstrait sont transférées à un modèle plus réaliste via On Policy Distillation : une politique RL simplifiée agit comme un « professeur » pour le modèle qui fonctionnera ensuite dans le véhicule. Séparément, GM utilise un pipeline SHIFT3D pour créer spécifiquement des objets où le système de perception pourrait échouer et ajoute un module d'incertitude épistémique qui marque les scènes où le modèle est véritablement « incertain ». Selon l'entreprise, l'affinage sur de tels cas difficiles a déjà réduit les quasi-collisions de plus de 30 %.

Ce que cela signifie L'approche de GM montre où se dirige l'industrie

de la conduite autonome : non vers un seul modèle « intelligent » mais vers un écosystème entier de simulateurs, de modèles de monde génératifs, de RL et de systèmes d'évaluation de l'incertitude. Si un tel schéma s'avère vraiment scalable, l'actif clé de la course aux autopilotes ne sera pas seulement une flotte de véhicules sur les routes mais aussi la qualité de l'infrastructure qui peut rapidement imaginer, tester et casser des scénarios rares avant que les utilisateurs les rencontrent.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…