Habr AI→ original

Un pipeline de Physical AI pour le SO-101 a été assemblé sur la base de ROS2 et LeRobot pour 30 000 roubles

Un exemple rare, dans le domaine de la Physical AI, d’un pipeline complet reproductible à la maison a fait son apparition : manipulateur SO-101, contrôle…

Traité par IA depuis Habr AI ; édité par Hamidun News
Un pipeline de Physical AI pour le SO-101 a été assemblé sur la base de ROS2 et LeRobot pour 30 000 roubles
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

La communauté open-source a développé un stack pratique de Physical AI pour le manipulateur bon marché SO-101 : il couvre tout le chemin de la démonstration télépilotée à l'exécution autonome de tâches sur un robot réel. Au lieu de scripts dispersés, le projet connecte ROS2, LeRobot et imitation learning dans un pipeline unique reproductible pour environ 30 mille roubles de coût de configuration.

Comment le stack est organisé

L'idée principale du projet n'est pas un nouveau modèle, mais que la robotique et le ML ne vivent plus séparés. En bas se trouve le manipulateur SO-101 lui-même, au-dessus se trouve la couche ros2_control avec une interface matérielle pour les servos Feetech STS3215, et puis remontent la télépilotage, les caméras, l'enregistrement des épisodes et l'inference. En résultat, le robot est visible au système comme un appareil ROS2 normal, pas comme un ensemble de scripts attachés à une seule carte. Cela rend le stack portable et pratique à modifier.

Au-dessus de cela, la télépilotage leader/follower est lancée : l'opérateur montre le mouvement désiré, et le bras follower le reproduit tout en générant simultanément des données d'entraînement. Pendant les démonstrations, le projet enregistre les épisodes en rosbag ou MCAP, fonctionne avec plusieurs caméras et permet de vérifier les observations et actions par visualisation dans Rerun. C'est un point important : les données peuvent non seulement être collectées mais rapidement filtrées avant l'entraînement si la synchronisation, les angles des caméras ou les trajectoires se sont avérés infructueux.

Chemin à partir des données

Après l'enregistrement, le projet convertit les épisodes des formats ROS en dataset LeRobot. C'est un pont entre le monde ROS2 et ML, qui supprime les formats intermédiaires faits maison et permet une transition plus rapide vers l'entraînement de la policy. Ensuite, vous pouvez essayer l'imitation learning end-to-end avec des modèles comme ACT ou SmolVLA et ensuite retourner la policy obtenue dans le circuit ROS2 du robot. Ce chemin est important aussi parce qu'il s'appuie sur l'écosystème d'outils déjà existant.

Pratiquement tout le flux de travail ressemble à ceci :

  • démarrage du manipulateur robotique et lancement de ros2_control
  • collecte de démonstrations par télépilotage leader/follower
  • enregistrement des épisodes en rosbag ou MCAP
  • vérification des flux de caméra, actions et observations dans Rerun
  • conversion en dataset LeRobot, entraînement de la policy et déploiement sur le robot

Une force distincte du stack est la séparation du runtime côté-robot et du modèle lourd. Si le calcul local près du bras est insuffisant, la policy peut tourner sur un serveur GPU externe via policy_server, tandis que le côté robot garde uniquement le client inference et le circuit d'exécution. Pour Physical AI ce n'est pas cosmétique mais un découplage d'ingénierie normal : la boucle de contrôle reste près du matériel, et le « cerveau » se redimensionne indépendamment. Cela simplifie les expériences avec des modèles plus lourds et réduit les exigences pour le matériel côté-robot.

Où est la valeur pratique

De tels projets se cassent généralement à l'intersection des disciplines : le robot peut se déplacer mais les données sont collectées mal ; le dataset existe mais ne peut pas être retourné au matériel sans douleur ; le modèle s'entraîne mais ne vit pas en runtime réel. Ici précisément les parties les plus ennuyeuses mais les plus précieuses sont couvertes — démarrage, enregistrement, contrôle visuel, conversion et réintégration à ROS2. Par conséquent, le stack ressemble non pas à une démo de recherche mais à une plateforme éducationnelle-pratique pour l'embodied AI.

Le projet est particulièrement utile pour ceux qui veulent entrer en Physical AI sans budget de laboratoire. Sur un SO-101 bon marché vous pouvez d'abord déboguer les choses basiques — alimentation, calibrage, télépilotage, caméras, schéma de données et latence d'inference — et seulement ensuite passer à des manipulateurs plus complexes. Cette approche économise des mois : d'abord vous construisez un pipeline reproductible, puis vous expérimentez avec la policy, pas l'inverse. Pour les étudiants, les équipes de recherche et les petites startups cela abaisse notablement la barrière d'entrée.

Ce que cela signifie

Physical AI sort progressivement du mode présentation et entre dans les stacks open-source reproductibles. Si un manipulateur bon marché peut être levé comme système ROS2, les démonstrations collectées dessus, la policy entraînée et retournée au matériel, alors la barrière d'entrée à l'embodied AI baisse notablement pour les ingénieurs et les petites équipes. Cela signifie que plus d'expériences se dérouleront non pas sur des diapositives mais sur des tables réelles et dans les laboratoires.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…