Montaron un pipeline de Physical AI para SO-101 sobre ROS2 y LeRobot por 30 mil rublos
Apareció un ejemplo poco común en Physical AI de un pipeline integral que se puede reproducir en casa: manipulador SO-101, control nativo de ROS2, grabación…
Procesado por IA desde Habr AI; editado por Hamidun News
La comunidad open-source ha desarrollado un stack práctico de Physical AI para el manipulador barato SO-101: cubre todo el camino desde demostración teleoperada hasta ejecución autónoma de tareas en un robot real. En lugar de scripts dispersos, el proyecto conecta ROS2, LeRobot e imitation learning en un único pipeline reproducible por aproximadamente 30 mil rublos de costo de configuración.
Cómo está organizado el stack
La idea principal del proyecto no es un nuevo modelo, sino que la robótica y el ML ya no viven separados. En la base está el propio manipulador SO-101, arriba está la capa ros2_control con interfaz de hardware para los servos Feetech STS3215, y luego se elevan teleopeación, cámaras, grabación de episodios e inference. Como resultado, el robot es visto por el sistema como un dispositivo ROS2 normal, no como un conjunto de scripts atados a una sola placa. Esto hace que el stack sea portable y conveniente para modificación.
Encima de esto se ejecuta teleopeación leader/follower: el operador demuestra el movimiento deseado, y el brazo follower lo repite mientras simultáneamente genera datos de entrenamiento. Durante demostraciones, el proyecto graba episodios en rosbag o MCAP, trabaja con múltiples cámaras y permite verificar observations y actions mediante visualización en Rerun. Este es un punto importante: los datos no solo pueden recopilarse sino filtrarse rápidamente antes del entrenamiento si la sincronización, ángulos de cámara o trayectorias resultaron fallidas.
Camino desde los datos
Después de la grabación, el proyecto convierte episodios de formatos ROS en dataset LeRobot. Este es un puente entre el mundo ROS2 y ML, que elimina formatos intermedios caseros y permite transición más rápida al entrenamiento de policy. Luego puede intentar imitation learning end-to-end con modelos como ACT o SmolVLA y luego devolver la policy obtenida de vuelta al circuito ROS2 del robot. Este camino es importante también porque se basa en el ecosistema de herramientas ya existente.
Prácticamente todo el flujo de trabajo se ve así:
- bringup del manipulador robótico e inicio de ros2_control
- recopilación de demostraciones a través de teleop leader/follower
- grabación de episodios en rosbag o MCAP
- verificación de flujos de cámara, actions y observations en Rerun
- conversión a dataset LeRobot, entrenamiento de policy e implementación en el robot
Una fortaleza separada del stack es la separación de runtime lado-robot y modelo pesado. Si la computación local cerca del brazo es insuficiente, la policy puede ejecutarse en un servidor GPU externo a través de policy_server, mientras que el lado robot mantiene solo el cliente inference y el circuito de ejecución. Para Physical AI esto no es cosmético sino desacoplamiento de ingeniería normal: el control loop permanece cerca del hardware, y el "cerebro" se escala independientemente. Esto simplifica experimentos con modelos más pesados y reduce requisitos para hardware lado-robot.
Dónde está el valor práctico
Tales proyectos usualmente se rompen en la intersección de disciplinas: el robot puede moverse pero los datos se recopilan mal; el dataset existe pero no puede devolverse al hardware sin dolor; el modelo se entrena pero no vive en runtime real. Aquí precisamente se cubren las partes más aburridas pero más valiosas — bringup, grabación, control visual, conversión e reintegración a ROS2. Por lo tanto, el stack se ve no como demo de investigación sino como plataforma educacional-práctica para embodied AI.
El proyecto es especialmente útil para quienes quieren entrar en Physical AI sin presupuesto de laboratorio. En un SO-101 barato puede depurar primero cosas básicas — alimentación, calibración, teleop, cámaras, schema de datos y latencia de inference — y solo entonces pasar a manipuladores más complejos. Este enfoque ahorra meses: primero construye un pipeline reproducible, luego experimenta con policy, no al revés. Para estudiantes, equipos de investigación y pequeñas startups esto notablemente reduce la barrera de entrada.
Qué significa esto
Physical AI está saliendo gradualmente del modo presentación e ingresando en stacks open-source reproducibles. Si un manipulador barato puede levantarse como sistema ROS2, demostraciones recopiladas en él, policy entrenada y devuelta al hardware, entonces la barrera de entrada a embodied AI cae notavelmente para ingenieros y pequeños equipos. Esto significa más experimentos ocurrirán no en diapositivas sino en mesas reales y laboratorios.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.