AWS et NVIDIA ont lancé l’entraînement à grande échelle du robot Unitree H1 sur SageMaker AI
AWS et NVIDIA ont montré comment mettre à l’échelle l’apprentissage par renforcement pour le robot humanoïde Unitree H1 dans le cloud. Le simulateur NVIDIA…
Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
AWS et NVIDIA ont lancé l'entraînement à grande échelle du robot humanoïde Unitree H1 sur SageMaker AI
AWS en collaboration avec NVIDIA a démontré un pipeline complet pour entraîner les politiques de contrôle du robot humanoïde Unitree H1 directement dans le cloud — sans avoir à posséder son propre cluster GPU.
Pourquoi le cloud pour les robots
L'apprentissage par renforcement pour les robots physiques nécessite des milliards d'étapes de simulation — ce n'est pas une exagération. Pour qu'un humanoïde apprenne à marcher vers l'avant sans tomber, le réseau de neurones doit traverser des dizaines de milliards d'interactions entre un agent virtuel et l'environnement. Faire cela dans le monde réel est coûteux et dangereux : une expérience échouée signifie des réparations potentielles coûtant des milliers de dollars, et le processus lui-même prendrait des années au lieu d'heures.
C'est pourquoi l'industrie mise sur la simulation physique. La course pour une « Loi de Moore pour les robots » a déjà commencé : Tesla, Figure, Boston Dynamics et des dizaines de startups investissent des centaines de millions dans la création d'environnements synthétiques pour l'entraînement. NVIDIA Isaac Lab est un simulateur accéléré par GPU capable d'exécuter simultanément des milliers de copies d'un environnement virtuel sur un seul nœud.
Auparavant, il était utilisé principalement dans les grands laboratoires corporatifs et universitaires avec du matériel coûteux. Maintenant, Isaac Lab est directement intégré à Amazon SageMaker AI. Cela signifie qu'une demande de centaines de GPU est satisfaite en minutes, et un ingénieur n'a pas besoin de penser à l'infrastructure — seulement au code de politique et à la configuration de la tâche.
Deux options de déploiement
AWS propose deux modes pour différents scénarios d'utilisation :
- SageMaker HyperPod — un cluster géré persistant ; l'infrastructure persiste entre les exécutions, ce qui est pratique pour les recherches de plusieurs semaines et l'ajustement itératif des hyperparamètres
- SageMaker Training Jobs — une exécution gérée ponctuelle ; les ressources sont allouées strictement pour la tâche et libérées automatiquement à la fin, ce qui simplifie le contrôle du budget
- Les instances des séries p4d et p5 avec NVIDIA A100 et H100 respectivement sont prises en charge
- Isaac Lab est déployé dans un conteneur Docker standard ; les poids du modèle et les points de contrôle sont automatiquement sauvegardés dans Amazon S3
- Les métriques d'entraînement — récompense, longueur d'épisode, perte d'entropie — sont transmises à Amazon CloudWatch en temps réel
L'avantage clé des deux options est l'élimination de la charge opérationnelle. Il n'est pas nécessaire de configurer manuellement Kubernetes, de gérer la mise en réseau InfiniBand entre les nœuds ou d'équilibrer manuellement les charges de GPU.
Comment fonctionne l'entraînement d'Unitree H1
Unitree H1 est l'un des humanoïdes en série les plus accessibles : environ 180 cm de hauteur, pesant 47 kg, avec 19 degrés de liberté. Cela en fait une plateforme populaire pour la recherche académique en contrôle de mouvement. Dans la simulation Isaac Lab, des milliers de copies virtuelles de ce robot apprennent à marcher en parallèle en utilisant l'algorithme d'Optimisation de Politiques Proximales (PPO) : ils tombent, se relèvent, ajustent leur équilibre et reçoivent des récompenses pour un mouvement vers l'avant stable.
La précision avec laquelle la fonction de récompense décrit le comportement souhaité détermine la qualité de la politique entraînée. Sur un seul nœud H100, Isaac Lab peut exécuter jusqu'à 4096 simulations parallèles simultanément. En augmentant l'échelle à plusieurs nœuds, l'entraînement distribué est utilisé via PyTorch DDP — la synchronisation des gradients entre GPU se fait automatiquement.
«
La mise à l'échelle à des centaines de GPU via SageMaker réduit le temps d'entraînement de plusieurs jours à plusieurs heures », notent les auteurs de l'article de blog AWS.
Une fois l'entraînement terminé, la politique entraînée est exportée dans les formats ONNX ou TorchScript et peut être déployée sur du matériel réel via NVIDIA Isaac ROS.
Ce que cela signifie
L'apprentissage par renforcement basé sur le cloud pour les robots sort des laboratoires avec des budgets d'équipement de plusieurs millions de dollars. Toute petite équipe disposant d'un compte AWS peut désormais mener une expérience sérieuse d'entraînement d'humanoïdes sans investissements majeurs en infrastructure. Cela change l'économie de la robotique : la barrière à l'entrée diminue, le rythme des itérations augmente — et les prochaines percées dans le contrôle des robots physiques pourraient très bien provenir d'équipes étonnamment petites.
Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?
Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.