IEEE Spectrum AI→ оригинал

Рука вместо экрана: как Wetour Robotics переоткрыла интерфейсы

Wetour Robotics отказалась от традиционных интерфейсов. Их система Orchestra одновременно обрабатывает три потока: где находится тело, куда смотрят глаза и что

Рука вместо экрана: как Wetour Robotics переоткрыла интерфейсы
Источник: IEEE Spectrum AI. Коллаж: Hamidun News.
◐ Слушать статью

В Physical AI произошла асимметрия. Роботы прыгают, танцуют и собирают хрупкие объекты, но управлять ими по-прежнему нужно через экран, кнопки или голос — способы, которые не изменились за 40 лет. Wetour Robotics решила проблему с другого конца. Вместо того чтобы делать роботов ещё умнее, компания переработала интерфейс между человеком и машиной.

Почему экран и голос не работают

За три года Physical AI сделал невероятный прогресс на стороне роботов. Boston Dynamics, Figure и Unitree разработали актуаторы и ловкость манипуляторов на уровне, который казался невозможным десять лет назад. Google DeepMind показал, что vision-language-action модели работают в неструктурированной среде. Но развитие остановилось на интерфейсах. Сорок лет компьютеры ждут, когда человек остановится, посмотрит вниз и переведёт своё намерение в команду. На ветровой турбине, на доке с грузами или на оживлённой улице этот подход молча рушится. Техник не может отпустить ключ. Рабочий не может посмотреть на экран. Пешеход не может громко говорить команды. Узкое место переместилось с машинной части на человеческую.

Spatial

Intent Fusion: три потока вместо одного Wetour Robotics назвала свой подход Spatial Intent Fusion — одновременная обработка трёх потоков информации о человеке: Положение тела в пространстве Направление взгляда и визуальный контекст Сигналы мышц через электромиографические датчики Скорость обработки менее 100 миллисекунд * Предсказание намерения за 50–80 мс до видимого движения Каждый канал в изоляции двусмыслен. Но вместе, обработанные на уровне операционной системы с очень низкой задержкой, они рисуют однозначный портрет того, что вы собираетесь сделать.

Как это работает: слои и движки

Orchestra Орchestra — портативный вычислительный хаб с тремя восприимчивыми слоями. VisionLink обрабатывает видео: камеры отслеживают объекты, расстояния, контекст. Conductor читает biosignals из носимого браслета с поверхностными электромиографическими датчиками (sEMG). Orchestra OS фьюзирует эти потоки в четырёх движках: восприятие сенсоров, инференс намерения, оркестрировка команд, проверка безопасности. Ключевой трюк: motor unit action potentials появляются на коже за 50–80 миллисекунд до того, как палец завершит жест. Система угадывает, что вы сейчас сделаете, раньше, чем вы это сделаете. Всё работает на edge — на локальном устройстве, без облака. NVIDIA Jetson Orin Nano Super обеспечивает достаточно инференса, чтобы замкнуть цикл управления за 100 миллисекунд.

«Ваше тело — это интерфейс», — слоган

Wetour Robotics, который скрывает сложную архитектуру машинного зрения, biosignal processing и real-time intent inference.

Что это значит История компьютеров — это история революций интерфейсов.

Командная строка вытеснила перфоленту, графический интерфейс вытеснил командную строку, сенсор вытеснил кнопки, голос вытеснил сенсор. Каждый переход расширил, кто может участвовать в системе и что он может с ней делать. Следующий переход — не новый экран и не новый микрофон. Это человеческое тело как первокласс узел в вычислительной сети, со скоростью и точностью любого другого подключённого устройства. Это не конкурирует с развитием гуманоидов и foundation models — это дополнение. Гуманоидам нужны данные для обучения. Когда люди становятся первокласс узлами в цикле, каждое их взаимодействие с миром — потенциальный сигнал для следующего поколения Physical AI.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…