Mão em vez de tela: como Wetour Robotics redescobriu interfaces
A Wetour Robotics abandonou as interfaces tradicionais. Seu sistema Orchestra processa simultaneamente três fluxos: onde o corpo está localizado, para onde…
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
Houve uma assimetria em Physical AI. Robôs pulam, dançam e coletam objetos frágeis, mas controlá-los ainda requer telas, botões ou voz — métodos que não mudaram em 40 anos. A Wetour Robotics resolveu o problema de outro ângulo. Em vez de tornar os robôs ainda mais inteligentes, a empresa redesenhou a interface entre humano e máquina.
Por que telas e voz não funcionam
Em três anos, Physical AI fez progresso extraordinário do lado dos robôs. Boston Dynamics, Figure e Unitree desenvolveram atuadores e destreza de manipuladores em um nível que parecia impossível dez anos atrás. O Google DeepMind mostrou que modelos vision-language-action funcionam em ambientes não estruturados. Mas o desenvolvimento parou nas interfaces.
Por quarenta anos, os computadores esperaram que uma pessoa parasse, olhasse para baixo e traduzisse sua intenção em um comando. Em uma turbina eólica, em um cais com carga ou em uma rua movimentada, essa abordagem falha silenciosamente. Um técnico não pode soltar a chave. Um operário não pode olhar para a tela. Um pedestre não pode dar comandos em voz alta. O gargalo mudou da parte da máquina para a parte humana.
Spatial Intent Fusion: três fluxos em vez de um
A Wetour Robotics chamou sua abordagem de Spatial Intent Fusion — o processamento simultâneo de três fluxos de informações sobre o ser humano:
- Posição do corpo no espaço
- Direção do olhar e contexto visual
- Sinais musculares através de sensores eletromiográficos
- Velocidade de processamento inferior a 100 milissegundos
- Previsão de intenção 50–80 ms antes do movimento visível
Cada canal em isolamento é ambíguo. Mas juntos, processados no nível do sistema operacional com latência muito baixa, eles desenham um retrato inequívoco do que você está prestes a fazer.
Como funciona: camadas e mecanismos do Orchestra
Orchestra — um hub de computação portátil com três camadas sensoras. VisionLink processa vídeo: câmeras rastreiam objetos, distâncias, contexto. Conductor lê biossignais de uma pulseira vestível com sensores de eletromiografia superficial (sEMG). Orchestra OS funde esses fluxos em quatro mecanismos: percepção sensorial, inferência de intenção, orquestração de comandos, verificação de segurança.
O truque chave: potenciais de ação de unidades motoras aparecem na pele 50–80 milissegundos antes do dedo completar o gesto. O sistema adivinha o que você está prestes a fazer antes de você fazê-lo.
Tudo roda em edge — no dispositivo local, sem nuvem. NVIDIA Jetson Orin Nano Super fornece inferência suficiente para fechar o ciclo de controle em 100 milissegundos.
«Seu corpo é a interface», — o slogan da
Wetour Robotics, que esconde uma arquitetura complexa de visão de máquina, processamento de biossignais e inferência de intenção em tempo real.
O que isso significa
A história dos computadores é a história de revoluções de interfaces. A linha de comando suplantou a fita perfurada, a interface gráfica suplantou a linha de comando, o sensor suplantou os botões, a voz suplantou o sensor.
Cada transição expandiu quem podia participar do sistema e o que podiam fazer com ele. A próxima transição não é uma nova tela e não é um novo microfone. É o corpo humano como um nó de primeira classe em uma rede computacional, com a velocidade e precisão de qualquer outro dispositivo conectado. Isso não compete com o desenvolvimento de humanoides e modelos de fundação — é um complemento. Os humanoides precisam de dados para treinamento. Quando as pessoas se tornam nós de primeira classe no ciclo, cada uma de suas interações com o mundo é um sinal potencial para a próxima geração de Physical AI.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.