Habr AI→ original

Montaram um pipeline de Physical AI para o SO-101 com base em ROS2 e LeRobot por 30 mil rublos

Surgiu um exemplo raro, para Physical AI, de um pipeline completo que pode ser reproduzido em casa: manipulador SO-101, controle nativo em ROS2, gravação de…

Processado por IA de Habr AI; editado por Hamidun News
Montaram um pipeline de Physical AI para o SO-101 com base em ROS2 e LeRobot por 30 mil rublos
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A comunidade open-source desenvolveu um stack prático de Physical AI para o manipulador barato SO-101: ele cobre todo o caminho desde demonstração teleoperada até execução autônoma de tarefas em um robô real. Em vez de scripts dispersos, o projeto conecta ROS2, LeRobot e imitation learning em uma única pipeline reproduzível por aproximadamente 30 mil rublos de custo de configuração.

Como o stack é organizado

A ideia principal do projeto não é um novo modelo, mas que robótica e ML não vivem mais separados. Na base está o próprio manipulador SO-101, acima dele está a camada ros2_control com interface de hardware para servos Feetech STS3215, e então surgem teleopeação, câmeras, gravação de episódios e inference. Como resultado, o robô é visto pelo sistema como um dispositivo ROS2 normal, não como um conjunto de scripts vinculados a uma única placa. Isso torna o stack portável e conveniente para modificação.

No topo disto, é iniciada teleopeação leader/follower: o operador demonstra o movimento desejado, e o braço follower o repete enquanto simultaneamente gera dados de treinamento. Durante demonstrações, o projeto grava episódios em rosbag ou MCAP, trabalha com múltiplas câmeras e permite verificar observations e actions através de visualização em Rerun. Este é um ponto importante: dados não apenas podem ser coletados mas rapidamente filtrados antes do treinamento se a sincronização, ângulos de câmera ou trajetórias forem malsucedidas.

Caminho dos dados

Após gravação, o projeto converte episódios de formatos ROS em dataset LeRobot. Esta é uma ponte entre o mundo ROS2 e ML, que remove formatos intermediários caseiros e permite transição mais rápida para treinamento de policy. Em seguida, você pode tentar imitation learning end-to-end com modelos como ACT ou SmolVLA e então retornar a policy obtida de volta ao circuito ROS2 do robô. Este caminho é importante também porque se baseia no ecossistema de ferramentas já existente.

Praticamente todo o fluxo de trabalho parece assim:

  • bringup do manipulador robótico e inicialização de ros2_control
  • coleta de demonstrações através de teleop leader/follower
  • gravação de episódios em rosbag ou MCAP
  • verificação de fluxos de câmera, actions e observations em Rerun
  • conversão para dataset LeRobot, treinamento de policy e implantação no robô

Uma força separada do stack é a separação entre runtime lado-robô e modelo pesado. Se computação local perto do braço for insuficiente, policy pode rodar em servidor GPU externo através de policy_server, enquanto o lado robô mantém apenas o cliente inference e circuito de execução. Para Physical AI isto não é cosmético mas desacoplamento de engenharia normal: o control loop permanece perto do hardware, e o "cérebro" escala independentemente. Isto simplifica experimentos com modelos mais pesados e reduz requisitos para hardware lado-robô.

Onde está o valor prático

Tais projetos geralmente quebram na intersecção de disciplinas: o robô consegue se mover mas dados são coletados mal; o dataset existe mas não pode ser retornado ao hardware sem dor; o modelo treina mas não vive em runtime real. Aqui precisamente as partes mais chatas mas mais valiosas são cobertas — bringup, gravação, controle visual, conversão e reintegração ao ROS2. Portanto, o stack parece não como demo de pesquisa mas como plataforma educacional-prática para embodied AI.

O projeto é especialmente útil para quem quer entrar em Physical AI sem orçamento de laboratório. Em um SO-101 barato você pode primeiro debugar coisas básicas — energia, calibração, teleop, câmeras, schema de dados e latência de inference — e só depois mover para manipuladores mais complexos. Esta abordagem economiza meses: primeiro você constrói uma pipeline reproduzível, depois experimenta com policy, não ao contrário. Para estudantes, equipes de pesquisa e pequenas startups isto notavelmente reduz a barreira de entrada.

O que isto significa

Physical AI está gradualmente saindo do modo apresentação e entrando em stacks open-source reproduzíveis. Se um manipulador barato pode ser levantado como sistema ROS2, demonstrações coletadas nele, policy treinada e retornada ao hardware, então a barreira de entrada para embodied AI cai notavelmente para engenheiros e pequenas equipes. Isto significa mais experimentos acontecerão não em slides mas em mesas reais e laboratórios.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…