Boston Dynamics e Google DeepMind ensinam Spot a raciocinar em inspeções industriais
Boston Dynamics integrou o modelo Gemini Robotics-ER 1.6 do Google DeepMind ao Spot e aposta na inspeção industrial. O robô agora pode detectar…
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
A Boston Dynamics está transformando o Spot da categoria de demonstrações impressionantes para uma classe mais prática de robôs industriais: o aparelho quadrúpede recebeu o modelo Gemini Robotics-ER 1.6 do Google DeepMind e agora deve não apenas executar comandos, mas interpretar o ambiente ao redor, notar desvios e tomar decisões durante inspeções sem envolvimento constante do operador. Para a robótica, esta é uma mudança importante.
Por muito tempo, os robôs conseguiam fazer muitas coisas, mas apenas se um humano tivesse descrito o cenário antecipadamente quase como um programa. Quanto mais complexa a tarefa, mais difícil era tornar a interface conveniente. A ideia de IA incorporada—isto é, IA com corpo físico e acesso ao mundo real—é justamente sobre fechar essa lacuna.
A Boston Dynamics é uma das poucas empresas que conseguiu levar robôs quadrúpedes para escala comercial: o Spot já está operando em milhares de unidades. Portanto, a integração do novo modelo não é um experimento acadêmico, mas uma tentativa de melhorar um produto que já está sendo usado em campo. O cenário primário não são tarefas de casa em vídeos, mas inspeção industrial.
Em fábricas, usinas de energia e outros locais complexos, o Spot deve patrulhar o território e verificar se algo perigoso está acontecendo. Com o Gemini Robotics-ER 1.6, o robô pode procurar autonomamente por líquidos derramados e detritos estranhos, ler sensores complexos, manômetros e vidros de inspeção, bem como conectar modelos visual-linguagem se precisar entender melhor a situação ao seu redor.
Em outras palavras, o objetivo não é ensinar o robô a buscar coisas lindamente, mas reduzir riscos em lugares onde o custo de um problema perdido pode ser alto. Mas o mais interessante aqui é o que os desenvolvedores chamam de compreensão e raciocínio. No mundo dos robôs, essas palavras soam cada vez mais frequentemente, embora na prática não signifiquem filosofia, mas proximidade do comportamento da máquina à lógica humana.
Se uma pessoa pedir a um robô para limpar latas de uma sala, ela espera não apenas o fato de executar o comando, mas também o bom senso: pegar a lata de forma a não derramar qualquer líquido restante, não colocar um copo de água na beira da mesa, não criar um novo perigo em vez de eliminar um antigo. No Google DeepMind, eles dizem que monitoram tais casos através de cenários internos de segurança semântica. O objetivo é para o robô não apenas entender o verbo no comando, mas considerar as consequências da ação no mundo físico.
Ao mesmo tempo, as limitações da abordagem atual são bastante notáveis. A versão atual do modelo para o Spot se baseia principalmente em visão. Por exemplo, uma das novas funcionalidades avalia o sucesso da captura de um objeto através de múltiplas câmeras.
Isto é útil, mas na robótica, existem há muito tempo outras maneiras de entender que um objeto foi apreendido de forma confiável: sensores de força, sensores de toque, feedback de contato. O problema está nos dados. Há muitos exemplos visuais na Internet de como pegar uma caneta ou abrir uma porta, mas quase não há conjuntos de dados massivos com informações táteis.
Portanto, ensinar modelos a física do contato é atualmente muito mais difícil do que ensinar imagens e texto. Para fechar essa lacuna, a Boston Dynamics pretende receber mais dados de campo de clientes que usarão os novos recursos de inspeção do Spot. Há também uma segunda questão prática—confiança.
A Boston Dynamics reconhece diretamente que está lançando novos recursos através de programas beta e apenas divulgando aquilo em que tem confiança. Para inspeção comercial, os robôs não precisam de perfeição absoluta, mas há um limite de utilidade. Se o sistema comete erros com muita frequência e levanta alarmes falsos, os operadores deixarão de ouvi-lo.
A empresa acredita que o valor real começa em algum lugar acima do nível de 80 por cento, quando o robô já está ajudando em vez de incomodar. Isto é especialmente importante em instalações onde parte da infraestrutura crítica está equipada com sensores, e parte dos detalhes potencialmente perigosos ainda só pode ser notada pelo olho durante rondas. A conclusão é simples: a união da Boston Dynamics e Google DeepMind não é uma história sobre outro vídeo de robô sensacional, mas uma tentativa de transformar IA incorporada em uma ferramenta prática com benefício mensurável.
Se o Spot realmente aprender a detectar vazamentos de forma confiável, ler instrumentos e agir de forma mais segura em ambientes ambíguos, o mercado receberá um dos primeiros exemplos convincentes de como a IA que raciocina funciona não em uma tela, mas em uma oficina. E a experiência acumulada pode então ser transferida para outras plataformas, incluindo robôs humanoides mais complexos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.