Montaram um pipeline de Physical AI para o SO-101 com base em ROS2 e LeRobot por 30 mil rublos
Surgiu um exemplo raro, para Physical AI, de um pipeline completo que pode ser reproduzido em casa: manipulador SO-101, controle nativo em ROS2, gravação de…
Processado por IA de Habr AI; editado por Hamidun News
A comunidade open-source desenvolveu um stack prático de Physical AI para o manipulador barato SO-101: ele cobre todo o caminho desde demonstração teleoperada até execução autônoma de tarefas em um robô real. Em vez de scripts dispersos, o projeto conecta ROS2, LeRobot e imitation learning em uma única pipeline reproduzível por aproximadamente 30 mil rublos de custo de configuração.
Como o stack é organizado
A ideia principal do projeto não é um novo modelo, mas que robótica e ML não vivem mais separados. Na base está o próprio manipulador SO-101, acima dele está a camada ros2_control com interface de hardware para servos Feetech STS3215, e então surgem teleopeação, câmeras, gravação de episódios e inference. Como resultado, o robô é visto pelo sistema como um dispositivo ROS2 normal, não como um conjunto de scripts vinculados a uma única placa. Isso torna o stack portável e conveniente para modificação.
No topo disto, é iniciada teleopeação leader/follower: o operador demonstra o movimento desejado, e o braço follower o repete enquanto simultaneamente gera dados de treinamento. Durante demonstrações, o projeto grava episódios em rosbag ou MCAP, trabalha com múltiplas câmeras e permite verificar observations e actions através de visualização em Rerun. Este é um ponto importante: dados não apenas podem ser coletados mas rapidamente filtrados antes do treinamento se a sincronização, ângulos de câmera ou trajetórias forem malsucedidas.
Caminho dos dados
Após gravação, o projeto converte episódios de formatos ROS em dataset LeRobot. Esta é uma ponte entre o mundo ROS2 e ML, que remove formatos intermediários caseiros e permite transição mais rápida para treinamento de policy. Em seguida, você pode tentar imitation learning end-to-end com modelos como ACT ou SmolVLA e então retornar a policy obtida de volta ao circuito ROS2 do robô. Este caminho é importante também porque se baseia no ecossistema de ferramentas já existente.
Praticamente todo o fluxo de trabalho parece assim:
- bringup do manipulador robótico e inicialização de ros2_control
- coleta de demonstrações através de teleop leader/follower
- gravação de episódios em rosbag ou MCAP
- verificação de fluxos de câmera, actions e observations em Rerun
- conversão para dataset LeRobot, treinamento de policy e implantação no robô
Uma força separada do stack é a separação entre runtime lado-robô e modelo pesado. Se computação local perto do braço for insuficiente, policy pode rodar em servidor GPU externo através de policy_server, enquanto o lado robô mantém apenas o cliente inference e circuito de execução. Para Physical AI isto não é cosmético mas desacoplamento de engenharia normal: o control loop permanece perto do hardware, e o "cérebro" escala independentemente. Isto simplifica experimentos com modelos mais pesados e reduz requisitos para hardware lado-robô.
Onde está o valor prático
Tais projetos geralmente quebram na intersecção de disciplinas: o robô consegue se mover mas dados são coletados mal; o dataset existe mas não pode ser retornado ao hardware sem dor; o modelo treina mas não vive em runtime real. Aqui precisamente as partes mais chatas mas mais valiosas são cobertas — bringup, gravação, controle visual, conversão e reintegração ao ROS2. Portanto, o stack parece não como demo de pesquisa mas como plataforma educacional-prática para embodied AI.
O projeto é especialmente útil para quem quer entrar em Physical AI sem orçamento de laboratório. Em um SO-101 barato você pode primeiro debugar coisas básicas — energia, calibração, teleop, câmeras, schema de dados e latência de inference — e só depois mover para manipuladores mais complexos. Esta abordagem economiza meses: primeiro você constrói uma pipeline reproduzível, depois experimenta com policy, não ao contrário. Para estudantes, equipes de pesquisa e pequenas startups isto notavelmente reduz a barreira de entrada.
O que isto significa
Physical AI está gradualmente saindo do modo apresentação e entrando em stacks open-source reproduzíveis. Se um manipulador barato pode ser levantado como sistema ROS2, demonstrações coletadas nele, policy treinada e retornada ao hardware, então a barreira de entrada para embodied AI cai notavelmente para engenheiros e pequenas equipes. Isto significa mais experimentos acontecerão não em slides mas em mesas reais e laboratórios.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.