36Kr (36氪)→ оригинал

Xiaomi abre el código fuente de su primer modelo VLA para robots

Xiaomi dio un paso importante en el desarrollo de la robótica al abrir el código fuente de su primer modelo VLA (Vision-Language-Action), Xiaomi-Robotics-0. El

Xiaomi abre el código fuente de su primer modelo VLA para robots
Источник: 36Kr (36氪). Коллаж: Hamidun News.
◐ Слушать статью

Xiaomi открывает исходный код своей первой VLA-модели и меняет правила игры в робототехнике

Xiaomi сделала решительный шаг в развитии автономных систем, открыв исходный код Xiaomi-Robotics-0 — своей первой Vision-Language-Action модели для роботов. Анонс, сделанный 12 февраля, означает, что разработчики по всему миру получат доступ к моделям с 4,7 миллиардами параметров, которые объединяют визуальное восприятие, понимание естественного языка и управление робота в реальном времени. Это не просто ещё один открытый проект — это сигнал о том, что китайский технологический гигант серьезно ставит на развитие мультимодального ИИ для физической автоматизации и готов поделиться своими наработками с глобальным сообществом разработчиков.

До сих пор сфера VLA-моделей оставалась территорией избранных. Самые мощные решения в этой области создавали компании вроде Tesla с их аппаратом для манипуляции объектами и Google DeepMind с их робототехническими экспериментами. Эти модели учатся связывать то, что видят роботы, с командами на естественном языке и конкретными действиями в реальном времени. Проблема в том, что обучение таких систем требует огромного объема видеоданных, мощных вычислительных ресурсов и глубокого понимания механики робота. Открытие Xiaomi меняет эту динамику. Выпустив исходный код и веса своей модели, компания демократизирует доступ к технологии, которая раньше была прерогативой крупных корпораций с огромными бюджетами.

Xiaomi-Robotics-0 спроектирована так, чтобы работать эффективно и практично. Модель с 4,7 миллиардами параметров — это золотая середина между скоростью и производительностью. Она достаточно компактна, чтобы работать на робот-платформах с ограниченными вычислительными возможностями, но при этом имеет достаточно мощности для решения сложных задач манипуляции. Архитектура объединяет три ключевых компонента: визуальный энкодер, который анализирует изображение с камер робота; языковую часть, которая обрабатывает инструкции пользователя на естественном языке; и модуль действий, который генерирует команды управления в реальном времени. Эта интеграция критична, потому что робот должен не просто понять задачу (например, "возьми красный кубик"), но и немедленно воплотить её в координаты движения и силу хвата.

Стратегия открытия кода Xiaomi имеет четкую логику. В экосистеме робототехники конкуренция разворачивается не столько на уровне моделей, сколько на уровне аппаратной части, программного обеспечения и экосистемы приложений. Открыв VLA-модель, компания позволяет тысячам разработчиков экспериментировать с новыми вариантами использования и адаптировать технологию под свои роботы. Это создает эффект сетевой ценности: чем больше людей улучшает модель и находит новые применения, тем выше вероятность, что решения, появившиеся из этого сообщества, будут работать со встроенными разработками Xiaomi.

Для индустрии это означает ускорение разработки. Стартапы, университеты и корпорации смогут экспериментировать с мультимодальным управлением роботами, не начиная с нуля. Модель уже натренирована на реальных данных и имеет разумную архитектуру, которую можно адаптировать под разные платформы. Это особенно важно в момент, когда робототехника стоит на пороге перехода из лабораторий в производство и повседневную жизнь.

Шаг Xiaomi демонстрирует более широкий тренд: лидеры в области ИИ всё чаще понимают, что открытие части своих разработок создает более сильную экосистему, чем жесткое контролирование. Это не означает, что компания отказывается от своих роботов — напротив, они останутся закрытыми и проприетарными. Но VLA-модель становится фундаментом, на котором будет расти цельная индустрия, и Xiaomi уже сейчас закладывает кирпичи в её основание.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…