36Kr (36氪)→ original

Xiaomi abre o código-fonte de seu primeiro modelo VLA para robôs

A Xiaomi deu um passo importante no desenvolvimento da robótica ao abrir o código-fonte de seu primeiro modelo VLA (Vision-Language-Action), o…

Processado por IA de 36Kr (36氪); editado por Hamidun News
Xiaomi abre o código-fonte de seu primeiro modelo VLA para robôs
Fonte: 36Kr (36氪). Colagem: Hamidun News.
◐ Ouvir artigo

Xiaomi abre o código-fonte de seu primeiro modelo VLA para robôs

Xiaomi abre o código-fonte de seu primeiro modelo VLA e muda as regras do jogo em robótica

Xiaomi deu um passo decisivo no desenvolvimento de sistemas autônomos ao abrir o código-fonte do Xiaomi-Robotics-0 — seu primeiro modelo Vision-Language-Action para robôs. O anúncio, feito em 12 de fevereiro, significa que desenvolvedores em todo o mundo terão acesso a modelos com 4,7 bilhões de parâmetros que combinam percepção visual, compreensão de linguagem natural e controle de robô em tempo real. Isso não é apenas mais um projeto de código aberto — é um sinal de que o gigante tecnológico chinês está apostando seriamente no desenvolvimento de IA multimodal para automação física e está disposto a compartilhar suas conquistas com a comunidade global de desenvolvedores.

Até agora, o campo dos modelos VLA permaneceu território de poucos. As soluções mais poderosas nesta área foram criadas por empresas como Tesla com seu aparelho de manipulação de objetos e Google DeepMind com seus experimentos de robótica. Esses modelos aprendem a conectar o que os robôs veem com comandos em linguagem natural e ações específicas em tempo real. O problema é que treinar tais sistemas requer um volume massivo de dados de vídeo, recursos computacionais poderosos e compreensão profunda da mecânica dos robôs. A abertura da Xiaomi muda essa dinâmica. Ao lançar o código-fonte e os pesos de seu modelo, a empresa democratiza o acesso a uma tecnologia que era anteriormente prerrogativa de grandes corporações com orçamentos enormes.

Xiaomi-Robotics-0 é projetado para funcionar de forma eficiente e prática. Um modelo com 4,7 bilhões de parâmetros é o meio-termo entre velocidade e desempenho. É compacto o suficiente para rodar em plataformas de robôs com capacidades computacionais limitadas, mas possui poder suficiente para resolver tarefas complexas de manipulação. A arquitetura combina três componentes-chave: um codificador visual que analisa imagens das câmeras do robô; um componente de linguagem que processa instruções do usuário em linguagem natural; e um módulo de ação que gera comandos de controle em tempo real. Esta integração é crítica porque um robô não deve apenas compreender a tarefa (por exemplo, "pegue o cubo vermelho"), mas também convertê-la imediatamente em coordenadas de movimento e força de preensão.

A estratégia da Xiaomi de abrir o código tem lógica clara. No ecossistema de robótica, a competição se desenrola não tanto no nível dos modelos, mas no nível de hardware, software e ecossistema de aplicações. Ao abrir o modelo VLA, a empresa permite que milhares de desenvolvedores experimentem novos casos de uso e adaptem a tecnologia para seus próprios robôs. Isso cria um efeito de valor de rede: quanto mais pessoas melhoram o modelo e encontram novas aplicações, maior é a probabilidade de que soluções emergentes desta comunidade funcionem com os desenvolvimentos internos da Xiaomi.

Para a indústria, isso significa desenvolvimento acelerado. Startups, universidades e corporações poderão experimentar controle multimodal de robôs sem começar do zero. O modelo já foi treinado em dados reais e possui uma arquitetura razoável que pode ser adaptada para diferentes plataformas. Isso é especialmente importante em um momento em que a robótica está à beira da transição dos laboratórios para a produção e a vida cotidiana.

O movimento da Xiaomi demonstra uma tendência mais ampla: líderes em IA entendem cada vez mais que abrir parte de seus desenvolvimentos cria um ecossistema mais forte do que o controle rigoroso. Isso não significa que a empresa está abandonando seus robôs — ao contrário, eles permanecerão fechados e proprietários. Mas o modelo VLA se torna a fundação sobre a qual toda uma indústria crescerá, e a Xiaomi já está colocando os tijolos em seu alicerce hoje.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…