36Kr (36氪)→ оригинал

Xiaomi открывает исходный код своей первой VLA-модели для роботов

Компания Xiaomi сделала важный шаг в развитии робототехники, открыв исходный код своей первой VLA-модели (Vision-Language-Action) — Xiaomi-Robotics-0. Модель с

Xiaomi открывает исходный код своей первой VLA-модели для роботов
Источник: 36Kr (36氪). Коллаж: Hamidun News.

Xiaomi открывает исходный код своей первой VLA-модели и меняет правила игры в робототехнике

Xiaomi сделала решительный шаг в развитии автономных систем, открыв исходный код Xiaomi-Robotics-0 — своей первой Vision-Language-Action модели для роботов. Анонс, сделанный 12 февраля, означает, что разработчики по всему миру получат доступ к моделям с 4,7 миллиардами параметров, которые объединяют визуальное восприятие, понимание естественного языка и управление робота в реальном времени. Это не просто ещё один открытый проект — это сигнал о том, что китайский технологический гигант серьезно ставит на развитие мультимодального ИИ для физической автоматизации и готов поделиться своими наработками с глобальным сообществом разработчиков.

До сих пор сфера VLA-моделей оставалась территорией избранных. Самые мощные решения в этой области создавали компании вроде Tesla с их аппаратом для манипуляции объектами и Google DeepMind с их робототехническими экспериментами. Эти модели учатся связывать то, что видят роботы, с командами на естественном языке и конкретными действиями в реальном времени. Проблема в том, что обучение таких систем требует огромного объема видеоданных, мощных вычислительных ресурсов и глубокого понимания механики робота. Открытие Xiaomi меняет эту динамику. Выпустив исходный код и веса своей модели, компания демократизирует доступ к технологии, которая раньше была прерогативой крупных корпораций с огромными бюджетами.

Xiaomi-Robotics-0 спроектирована так, чтобы работать эффективно и практично. Модель с 4,7 миллиардами параметров — это золотая середина между скоростью и производительностью. Она достаточно компактна, чтобы работать на робот-платформах с ограниченными вычислительными возможностями, но при этом имеет достаточно мощности для решения сложных задач манипуляции. Архитектура объединяет три ключевых компонента: визуальный энкодер, который анализирует изображение с камер робота; языковую часть, которая обрабатывает инструкции пользователя на естественном языке; и модуль действий, который генерирует команды управления в реальном времени. Эта интеграция критична, потому что робот должен не просто понять задачу (например, "возьми красный кубик"), но и немедленно воплотить её в координаты движения и силу хвата.

Стратегия открытия кода Xiaomi имеет четкую логику. В экосистеме робототехники конкуренция разворачивается не столько на уровне моделей, сколько на уровне аппаратной части, программного обеспечения и экосистемы приложений. Открыв VLA-модель, компания позволяет тысячам разработчиков экспериментировать с новыми вариантами использования и адаптировать технологию под свои роботы. Это создает эффект сетевой ценности: чем больше людей улучшает модель и находит новые применения, тем выше вероятность, что решения, появившиеся из этого сообщества, будут работать со встроенными разработками Xiaomi.

Для индустрии это означает ускорение разработки. Стартапы, университеты и корпорации смогут экспериментировать с мультимодальным управлением роботами, не начиная с нуля. Модель уже натренирована на реальных данных и имеет разумную архитектуру, которую можно адаптировать под разные платформы. Это особенно важно в момент, когда робототехника стоит на пороге перехода из лабораторий в производство и повседневную жизнь.

Шаг Xiaomi демонстрирует более широкий тренд: лидеры в области ИИ всё чаще понимают, что открытие части своих разработок создает более сильную экосистему, чем жесткое контролирование. Это не означает, что компания отказывается от своих роботов — напротив, они останутся закрытыми и проприетарными. Но VLA-модель становится фундаментом, на котором будет расти цельная индустрия, и Xiaomi уже сейчас закладывает кирпичи в её основание.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…