Ant Group ensina robôs a viver: nova base VLA ultrapassa Pi0.5
Enquanto capitalistas de risco ocidentais estão enchendo de dinheiro startups como a Physical Intelligence, um jogador apareceu no horizonte que eles…
Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News
Enquanto capitalistas de risco ocidentais estão enchendo de dinheiro startups como a Physical Intelligence, um jogador apareceu no horizonte que eles claramente não esperavam. Ant Group, uma empresa que acostumamo-nos a associar com pagamentos e fintech, decidiu que robôs também precisam de cérebros. E não apenas de cérebros, mas de um modelo VLA aberto (Vision-Language-Action) que em muitos aspectos deixa para trás o favorito atual da indústria — Pi0.
5. Se você pensava que a batalha pela IA física se limitava ao Vale do Silício, tenho notícias para você. Vamos primeiro entender o que é VLA.
Não é apenas outro chatbot que escreve poesia. É uma tentativa de criar uma rede neural unificada que vê o mundo, compreende comandos de texto e, o mais importante, sabe como mover "braços" mecânicos para completar uma tarefa. Por muito tempo, robôs eram ensinados em cada manipulação separadamente, mas VLA promete universalidade.
Imagine que você dá a um robô a tarefa "traga-me aquela caneca vermelha", e ele não apenas reconhece o objeto, mas constrói uma trajetória de movimento em tempo real, levando em conta obstáculos. Nesta liga Ant Group está jogando agora. A intriga aqui é que Pi0.
5 da Physical Intelligence era considerado o padrão ouro para modelos fundacionais abertos em robótica. Era algo como GPT-3 para manipuladores. No entanto, Ant Group afirma que seu novo desenvolvimento supera Pi0.
5 em precisão de execução de comandos e adaptabilidade a novas condições. Este é um golpe sério no orgulho dos engenheiros americanos. A empresa chinesa não simplesmente copiou a arquitetura; otimizou a maneira como o modelo conecta dados visuais a ações físicas, o que permitiu alcançar movimentos mais suaves e precisos.
Por que isso é importante agora? Estamos à beira de um boom de robôs humanoides. O hardware está ficando mais barato e mais acessível, mas o principal problema continua sendo o software — inteligência universal que permitirá a um robô sair do laboratório estéril e entrar em um armazém real ou apartamento residencial.
Ant Group está apostando na abertura. Ao lançar o modelo como código aberto, eles estão efetivamente convidando milhares de desenvolvedores em todo o mundo a testar e melhorar seu código. Este é um movimento clássico: se você não consegue vencer através de patentes fechados, crie um padrão que todos usarão.
É interessante observar como a própria Ant Group está se transformando. Após toda a turbulência regulatória na China, a empresa está buscando novos apoios, e tecnologias profundas (DeepTech) parecem um refúgio ideal. Robótica não é apenas hype, mas também um mercado enorme para automação logística, do qual a China tem mais do que qualquer outro lugar.
Talvez seu modelo VLA tenha sido originalmente treinado em dados de armazéns reais do Alibaba, o que lhe dá uma enorme vantagem sobre modelos treinados em simulações. Há outra camada importante nesta história — a geopolítica. Enquanto os EUA impõem sanções a chips, a China responde com um surto em algoritmos.
Um modelo aberto de tal complexidade é uma ferramenta poderosa de influência. Se amanhã cada segunda startup de fabricação de robôs na Europa ou Ásia usar uma base da Ant Group, a questão de qual ecossistema venceu se torna discutível. Estamos vendo a luta pela liderança em IA se deslocar dos chats de texto para o mundo físico.
O ponto-chave: Ant Group estabeleceu um precedente sério ao lançar um modelo que supera análogos ocidentais em acesso aberto. Conseguirão Physical Intelligence ou OpenAI responder com algo mais impressionante, ou a liderança em "cérebros para robôs" será firmemente garantida pelo Leste?
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.