Unitree UnifoLM-VLA-0: robôs chineses aprendem a pensar com as mãos
Por muito tempo observamos os robôs humanoides como peças impressionantes de maquinário que sabiam fazer piruetas, mas entravam em pânico diante de uma…
Processado por IA de 36Kr (36氪); editado por Hamidun News
Por muito tempo observamos os robôs humanoides como peças impressionantes de maquinário que sabiam fazer piruetas, mas entravam em pânico diante de uma maçaneta ordinária. O problema não estava nos motores, mas na "cabeça". E agora Unitree, uma empresa que já nos acostumou com robôs acessíveis, decidiu levar a inteligência artificial a sério.
Eles abriram o código-fonte do UnifoLM-VLA-0, e este evento pode mudar as regras do jogo na indústria mais rápido do que parece à primeira vista. Estamos finalmente transitando de redes neurais simples que apenas falam, para modelos como VLA (Vision-Language-Action), capazes de controlar um corpo físico no espaço real. Para entender a escala, precisamos lembrar como os robôs costumavam aprender.
Geralmente era lógica de software rígida ou aprendizado por reforço para uma tarefa específica e estreita. Se você ensinasse um robô a abrir uma geladeira, era tudo que ele podia fazer. UnifoLM-VLA-0 funciona de forma diferente.
É um descendente de grandes modelos de linguagem que passou por ajuste fino em dados específicos de interação física. O resultado é um "cérebro encarnado" que entende o contexto. Ele não apenas vê uma maçã na mesa, ele entende como pegá-la, com que força apertá-la e onde colocá-la, baseado no comando textual do usuário.
A coisa mais irônica aqui é que Unitree escolheu o caminho da abertura. Enquanto gigantes ocidentais e até alguns concorrentes chineses constroem "jardins murados", ocultando a arquitetura de seus sistemas de controle, Unitree coloca suas cartas na mesa. Este é um cálculo estratégico.
Ao abrir o código-fonte do UnifoLM-VLA-0, eles estão essencialmente convidando milhares de desenvolvedores em todo o mundo para testar, melhorar e adaptar seu modelo para uma ampla variedade de hardware. Este é um movimento clássico do manual de história de software: se você não consegue vencer a todos sozinho, torne-se o padrão para todos. Se amanhã cada segundo projeto de pesquisa em robótica usar os cérebros da Unitree, a questão da liderança industrial se resolverá sozinha.
Tecnicamente, o modelo UnifoLM-VLA-0 tenta fechar a lacuna entre compreensão visual (VLM) e ação real. Modelos ordinários frequentemente alucinam ou não entendem as leis da física — podem "dizer" que levantaram uma xícara, mas sua mão virtual passará através dela. A nova arquitetura da Unitree visa dar ao robô o que os engenheiros chamam de "senso comum físico".
Este é o conhecimento de que os objetos têm peso, atrito e inércia. Sem isto, humanoides permaneceriam brinquedos caros de exposição, capazes apenas de acenar para pedestres em um ciclo pré-gravado. O que isto significa para nós?
Provavelmente veremos um salto acentuado nas capacidades de robôs domésticos e de armazém nos próximos um ou dois anos. Quando o software se torna bem comum, o progresso se acelera exponencialmente. Já vimos isso com modelos de linguagem após o lançamento do LLaMA.
Agora é a vez do mundo físico. Claro, um robô mordomo em pleno funcionamento ainda está longe, mas o fundamento na forma de um "cérebro" aberto já foi lançado. Agora depende da comunidade, que deve ensinar esse cérebro não apenas a entender comandos, mas também a não quebrar tudo no processo de executá-los.
O ponto-chave: Unitree está apostando em código aberto, tentando se tornar o "Android" do mundo da robótica. Os sistemas proprietários fechados como Tesla Optimus conseguirão resistir à competição com a inteligência coletiva dos desenvolvedores?
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.