MarkTechPost→ original

Google DeepMind Apresenta Gemini Robotics-ER 1.6 para Autonomia e Leitura de Instrumentos por Robôs

Google DeepMind atualizou Gemini Robotics-ER para a versão 1.6 — uma camada cognitiva para robôs que compreende melhor o espaço, determina a conclusão de…

Processado por IA de MarkTechPost; editado por Hamidun News
Google DeepMind Apresenta Gemini Robotics-ER 1.6 para Autonomia e Leitura de Instrumentos por Robôs
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

Em 14 de abril de 2026, o Google DeepMind apresentou o Gemini Robotics-ER 1.6 — uma atualização do seu modelo de reasoning que funciona como a camada cognitiva superior para robôs no mundo físico. A ideia principal da versão 1.

6 não é adicionar outro VLA, mas dar ao robô um raciocínio espacial mais preciso: o modelo compreende melhor a cena, conta objetos, determina se uma tarefa foi concluída e, pela primeira vez, lê com confiança instrumentos complexos como manômetros, indicadores de nível e displays digitais. No DeepMind, o Gemini Robotics-ER é chamado de modelo reasoning-first para embodied AI. É necessário em situações em que robôs precisam fazer mais do que apenas reconhecer objetos: eles precisam entender as relações entre os objetos, selecionar um ponto de preensão, verificar restrições e decidir o que fazer a seguir.

Na versão 1.6, eles fortaleceram significativamente o pointing — a capacidade de indicar objetos e usar esses pontos como uma etapa intermediária no raciocínio. Isso ajuda a contar objetos com maior precisão, comparar tamanhos, construir trajetórias e seguir instruções com condições espaciais.

O modelo também recebeu compreensão multi-view aprimorada: monta melhor uma imagem unificada a partir de múltiplas câmeras, como uma câmera montada acima e outra no manipulador. Para desenvolvedores, o Gemini Robotics-ER 1.6 já está disponível através da Gemini API e Google AI Studio, junto com exemplos do Colab para configuração e prompt engineering.

A capacidade mais notável é a leitura de instrumentos, que surgiu da colaboração com Boston Dynamics. Em ambientes industriais, robôs encontram regularmente termômetros, manômetros circulares, vidros de observação e indicadores de nível verticais, onde a tarefa não é apenas classificação de imagem, mas extração precisa de valores. Para isso, o Gemini Robotics-ER 1.

6 usa agentic vision — uma combinação de raciocínio visual e execução de código. O modelo primeiro amplia o fragmento relevante, depois marca pontos-chave, avalia intervalos e proporções, e então relaciona isso com a escala, unidades de medida e contexto. De acordo com dados do Google DeepMind, na tarefa de leitura de instrumentos, a versão 1.

5 obteve 23%, Gemini 3.0 Flash — 67%, Robotics-ER 1.6 — 86%, e com agentic vision — 93%.

Isso não é mais uma demonstração de que o robô "vê" o instrumento, mas um passo em direção a um cenário em que ele conduz inspeções por conta própria, lê medições e entende o que elas significam. Outro componente importante é a determinação do sucesso da ação e segurança. Para um robô autônomo, não é suficiente iniciar uma tarefa; ele deve entender quando a conclusão da tarefa foi realmente alcançada e quando a tentativa precisa ser repetida.

DeepMind relata que o modelo lida melhor com detecção de sucesso até mesmo em cenários dinâmicos, com oclusões parciais e ângulos ambíguos. Em paralelo, melhoraram a conformidade com restrições físicas: por exemplo, o sistema deve levar em conta com mais precisão restrições como "não agarrar líquidos" ou "não levantar objetos mais pesados do que 20 kg". Em testes de reconhecimento de situações perigosas por texto e vídeo, a família Gemini Robotics-ER melhorou resultados em relação ao Gemini 3.

0 Flash em 6% e 10%, respectivamente. Ao mesmo tempo, o Google observa separadamente uma limitação: o modelo não se destina a aplicações safety-critical como medicina, transporte e outros ambientes onde um erro pode causar lesão ou dano. O significado prático do lançamento é que o Google está gradualmente transformando embodied reasoning de um tópico de pesquisa em uma camada de infraestrutura para robótica.

O Gemini Robotics-ER 1.6 não controla o hardware diretamente, mas dá aos robôs uma capacidade de raciocínio de nível superior mais poderosa que pode ser integrada com modelos VLA, busca e funções externas. Para a indústria, este é também um sinal de que a interface entre modelos de linguagem e robôs está se aproximando da aplicação comercial.

Se essa combinação se provar fora do laboratório, o mercado terá robôs que não apenas se movem de acordo com um script, mas também interpretam o ambiente, verificam o resultado e leem instrumentos reais sem um humano no circuito.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…