Unitree UnifoLM-VLA-0: robôs chineses aprendem a pensar com as mãos
Китайский лидер робототехники Unitree сделал сильный ход, открыв исходный код UnifoLM-VLA-0. Это не просто очередная нейронка для чатов, а полноценная VLA-модел

Долгое время мы смотрели на гуманоидных роботов как на впечатляющие куски железа, которые умеют делать сальто, но впадают в ступор при виде обычной дверной ручки. Проблема была не в моторах, а в «голове». И вот Unitree, компания, которая уже приучила нас к доступным робопсам, решила взяться за интеллект всерьез.
Они открыли исходный код UnifoLM-VLA-0, и это событие может изменить правила игры в индустрии быстрее, чем кажется на первый взгляд. Мы наконец-то переходим от простых нейросетей, которые умеют только болтать, к моделям типа VLA (Vision-Language-Action), способным управлять физическим телом в реальном пространстве. Чтобы понять масштаб, нужно вспомнить, как роботы учились раньше.
Обычно это была либо жесткая программная логика, либо обучение с подкреплением для конкретной узкой задачи. Если вы учили робота открывать холодильник, он умел только это. UnifoLM-VLA-0 работает иначе.
Это наследник больших языковых моделей, который прошел через «дообучение» на специфических данных физического взаимодействия. В результате получился «воплощенный мозг» (embodied brain), который понимает контекст. Он не просто видит яблоко на столе, он понимает, как его взять, с какой силой сжать и куда положить, основываясь на текстовой команде пользователя.
Самое ироничное здесь то, что Unitree выбрала путь открытости. Пока западные гиганты и даже некоторые китайские конкуренты строят «огороженные сады», скрывая архитектуру своих систем управления, Unitree выкладывает карты на стол. Это стратегический расчет.
Открывая UnifoLM-VLA-0, они фактически приглашают тысячи разработчиков по всему миру тестировать, улучшать и адаптировать их модель под самое разное железо. Это классический прием из учебника истории софта: если не можешь победить всех в одиночку, стань стандартом для всех. Если завтра каждый второй исследовательский проект по робототехнике будет использовать мозги от Unitree, вопрос о лидерстве в индустрии отпадет сам собой.
Технически модель UnifoLM-VLA-0 пытается преодолеть разрыв между визуальным пониманием (VLM) и реальным действием. Обычные модели часто галлюцинируют или не понимают законов физики — они могут «сказать», что подняли чашку, но их виртуальная рука пройдет сквозь неё. Новая архитектура от Unitree нацелена на то, чтобы робот обладал тем, что инженеры называют «физическим здравым смыслом».
Это знание о том, что предметы имеют вес, трение и инерцию. Без этого гуманоиды так и остались бы дорогими игрушками для выставок, способными лишь махать рукой прохожим по заранее записанному циклу. Что это значит для нас?
Скорее всего, мы увидим резкий скачок в возможностях домашних и складских роботов в ближайшие год-два. Когда софт становится общим достоянием, прогресс ускоряется экспоненциально. Мы уже видели это с языковыми моделями после выхода LLaMA.
Теперь пришла очередь физического мира. Конечно, до полноценного робота-дворецкого еще далеко, но фундамент в виде открытого «мозга» уже заложен. Теперь дело за сообществом, которое должно научить этот мозг не только понимать команды, но и не робить всё вокруг в процессе их выполнения.
Главное: Unitree делает ставку на open-source, пытаясь стать «Андроидом» в мире робототехники. Смогут ли закрытые проприетарные системы Tesla Optimus выдержать конкуренцию с коллективным разумом разработчиков?