Xiaomi abre o código-fonte de seu primeiro modelo VLA para robôs
A Xiaomi deu um passo importante no desenvolvimento da robótica ao abrir o código-fonte de seu primeiro modelo VLA (Vision-Language-Action), o…
Processado por IA de 36Kr (36氪); editado por Hamidun News
Xiaomi abre o código-fonte de seu primeiro modelo VLA para robôs
Xiaomi abre o código-fonte de seu primeiro modelo VLA e muda as regras do jogo em robótica
Xiaomi deu um passo decisivo no desenvolvimento de sistemas autônomos ao abrir o código-fonte do Xiaomi-Robotics-0 — seu primeiro modelo Vision-Language-Action para robôs. O anúncio, feito em 12 de fevereiro, significa que desenvolvedores em todo o mundo terão acesso a modelos com 4,7 bilhões de parâmetros que combinam percepção visual, compreensão de linguagem natural e controle de robô em tempo real. Isso não é apenas mais um projeto de código aberto — é um sinal de que o gigante tecnológico chinês está apostando seriamente no desenvolvimento de IA multimodal para automação física e está disposto a compartilhar suas conquistas com a comunidade global de desenvolvedores.
Até agora, o campo dos modelos VLA permaneceu território de poucos. As soluções mais poderosas nesta área foram criadas por empresas como Tesla com seu aparelho de manipulação de objetos e Google DeepMind com seus experimentos de robótica. Esses modelos aprendem a conectar o que os robôs veem com comandos em linguagem natural e ações específicas em tempo real. O problema é que treinar tais sistemas requer um volume massivo de dados de vídeo, recursos computacionais poderosos e compreensão profunda da mecânica dos robôs. A abertura da Xiaomi muda essa dinâmica. Ao lançar o código-fonte e os pesos de seu modelo, a empresa democratiza o acesso a uma tecnologia que era anteriormente prerrogativa de grandes corporações com orçamentos enormes.
Xiaomi-Robotics-0 é projetado para funcionar de forma eficiente e prática. Um modelo com 4,7 bilhões de parâmetros é o meio-termo entre velocidade e desempenho. É compacto o suficiente para rodar em plataformas de robôs com capacidades computacionais limitadas, mas possui poder suficiente para resolver tarefas complexas de manipulação. A arquitetura combina três componentes-chave: um codificador visual que analisa imagens das câmeras do robô; um componente de linguagem que processa instruções do usuário em linguagem natural; e um módulo de ação que gera comandos de controle em tempo real. Esta integração é crítica porque um robô não deve apenas compreender a tarefa (por exemplo, "pegue o cubo vermelho"), mas também convertê-la imediatamente em coordenadas de movimento e força de preensão.
A estratégia da Xiaomi de abrir o código tem lógica clara. No ecossistema de robótica, a competição se desenrola não tanto no nível dos modelos, mas no nível de hardware, software e ecossistema de aplicações. Ao abrir o modelo VLA, a empresa permite que milhares de desenvolvedores experimentem novos casos de uso e adaptem a tecnologia para seus próprios robôs. Isso cria um efeito de valor de rede: quanto mais pessoas melhoram o modelo e encontram novas aplicações, maior é a probabilidade de que soluções emergentes desta comunidade funcionem com os desenvolvimentos internos da Xiaomi.
Para a indústria, isso significa desenvolvimento acelerado. Startups, universidades e corporações poderão experimentar controle multimodal de robôs sem começar do zero. O modelo já foi treinado em dados reais e possui uma arquitetura razoável que pode ser adaptada para diferentes plataformas. Isso é especialmente importante em um momento em que a robótica está à beira da transição dos laboratórios para a produção e a vida cotidiana.
O movimento da Xiaomi demonstra uma tendência mais ampla: líderes em IA entendem cada vez mais que abrir parte de seus desenvolvimentos cria um ecossistema mais forte do que o controle rigoroso. Isso não significa que a empresa está abandonando seus robôs — ao contrário, eles permanecerão fechados e proprietários. Mas o modelo VLA se torna a fundação sobre a qual toda uma indústria crescerá, e a Xiaomi já está colocando os tijolos em seu alicerce hoje.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.