MTS mostrou como o OpenClaw foi conectado a um robô e levou um agente de IA para o mundo físico
MWS testou o OpenClaw não apenas em navegadores e aplicações, mas também em hardware real. A equipe conectou um agente ao robô Unitree G1 através de uma…
Processado por IA de Habr AI; editado por Hamidun News
O OpenClaw demonstrou que um agente autônomo pode ser movido do navegador para o mundo físico muito mais rápido do que comumente se acredita. A equipe do MWS pegou um orquestrador de código aberto que normalmente gerencia um computador e aplicativos, e o conectou a um robô através de uma camada de software simples. Como resultado, o agente começou não apenas a executar tarefas digitais, mas também a emitir comandos para um dispositivo real, orientando-se pelo fluxo de vídeo e modelos multimodais.
A ideia não é substituir a robótica completa, mas sim montar rapidamente e com baixo custo um protótipo funcional de IA Física. O próprio OpenClaw tornou-se um projeto notável em novembro de 2025, quando o desenvolvedor Peter Steinberger apresentou uma camada de orquestração para operação autônoma de computador. O agente recebe uma instrução em um mensageiro, a divide em etapas, alterna entre aplicativos, mantém contexto e, quando necessário, usa qualquer LLM compatível.
Essa independência de um modelo específico torna o sistema conveniente para experimentos: você pode mudar o mecanismo de raciocínio sem reescrever a camada de automação. Para desenvolvedores, essa é uma combinação rara: limiar de entrada baixo, flexibilidade de modelo e lógica já pronta para executar tarefas multicomponentes. Uma abordagem assim tem um risco óbvio: se você executar o OpenClaw diretamente em um notebook pessoal, o agente efetivamente ganha acesso amplo a todo o sistema.
O MWS propôs uma opção mais segura — executá-lo em uma máquina virtual isolada na nuvem. Para isso, usam uma imagem Ubuntu pré-configurada com OpenClaw, e para um cenário básico, uma configuração com 2 vCPU e 8 GB de RAM é suficiente. O que resta é emitir uma conta de serviço, configurar uma chave de API e conectar um LLM através de um endpoint compatível com OpenAI via GPT Model Hub.
Em outras palavras, em vez de configurar manualmente o ambiente, um desenvolvedor obtém um início quase com um clique. Isso é importante não apenas por conveniência: em um ambiente separado é mais seguro testar cenários onde o agente pode abrir processos, alterar o estado do sistema e manter o contexto de sessões de trabalho. O momento mais interessante começou onde artigos sobre interfaces de agentes normalmente terminam: no nível de hardware.
O MWS pegou um robô humanóide Unitree G1, que consegue caminhar, manter o equilíbrio e reagir ao ambiente, mas por si só não é um agente "inteligente". Em vez de uma arquitetura VLA complexa, a equipe simplesmente interceptou a lógica de controle remoto: o OpenClaw envia comandos para uma camada intermediária, que os converte em sinais que o robô entende. Usando o mesmo esquema, você pode conectar não apenas um robô humanóide caro, mas qualquer dispositivo com uma API ou controle remoto por rádio — desde um carrinho até um cachorro de brinquedo.
A ideia-chave aqui é que a camada intelectual é separada do mecanismo de execução, o que significa que o mesmo agente pode ser transferido entre diferentes tipos de dispositivos. Para o agente não agir às cegas, um fluxo de vídeo da câmera do robô foi alimentado no OpenClaw, e a interpretação da cena foi entregue ao modelo multimodal kimi-2.5.
Ele reconhece objetos, avalia a situação e ajuda a escolher a próxima ação: mover-se para frente, parar, evitar um obstáculo ou executar um comando simples no espaço. É importante notar que a demonstração não exigiu servidores MCP, cadeias de raciocínio pesadas ou uma plataforma de robótica separada. Essencialmente, a equipe montou uma ponte mínima entre um agente LLM, visão e um dispositivo de execução, mostrando que o limiar de entrada em IA Física agora é notavelmente menor do que muitos esperavam.
E exatamente aí está o valor deste caso: ele mostra não um modelo acadêmico do futuro, mas uma receita de engenharia que pode ser replicada com componentes disponíveis agora. A conclusão prática é simples: OpenClaw já pode ser usado não apenas para e-mails, arquivos e interfaces web, mas também como uma camada de controle universal para dispositivos físicos. Isso ainda não é uma substituição para sistemas Vision-Language-Action completos e não é um caminho para autonomia industrial confiável, mas uma forma muito rápida de testar um cenário, montar uma demonstração ou lançar um protótipo aplicado.
Para o mercado, este é um sinal importante: a combinação de LLM baseado em nuvem, fluxo de vídeo e API de controle simples está gradualmente transformando IA Física de uma exoticidade de pesquisa em uma ferramenta de engenharia.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.